AI 探索
作者:公子老白   来源:laobaiphoto.com

2025年春节,深度求索 DeepSeek 突然火遍全球。

这又引起了我的兴趣,以前使用过国外的 AI 绘画工具,我当然要去体验一把 DeepSeek 大语言模型的实力。

我问了一个关于我本人的问题,哈哈哈,竟然还挺了解我:

—— DeepSeek 回答 ——

—— 引用结束 ——

这个结果相当的厉害了,问题理解、搜索查找、资料分析、文案撰写都非常强大!

同样的问题,我又问了一下 Kimi,结果也非常满意,答案侧重点不同,有些内容更详细:

—— Kimi 回答 ——

—— 引用结束 ——

这二年在 AI 人工智能方面,国内厂商进步神速,我先后试用过:深度求索的 DeepSeek、月之暗面的 Kimi、阿里云的 通义、字节跳动的 豆包、剪映的 即梦、快手的 可灵(都有网站和 APP ),国外的 Midjourney 以前使用过,整体感觉都挺好用。

我还重点试用了一下通义的“文字作画”、“文生视频”、“图生视频”功能,很强大,基本能满足我的需求。

以下是使用通义“文字作画”的过程及结果:

文字描述如下:

再用智能扩写,扩写为更加详细的描述,然后生成作画,结果如下:

我的天啊!这比我拍得都好!这个结果可以媲美 Midjourney。对于生成卡通人物形象,我还是喜欢 Midjourney 的结果。

“文生视频”过程基本一样,但只能生成 5 秒钟视频,试验结果如下:

使用智能扩写后的描述为:

“图生视频”功能也非常强,下图是一张泰国拍摄的夜市乐队照片,看看能生成什么样的视频?

这真是 AI 生成的吗?毫无违和感!

又以卡通人物试验,使用“图生视频”功能生成了几段视频,并剪辑在一起,这也太真实了,各种表情非常到位:

2025年1月28日凌晨,DeepSeek 又发布了多模态模型 Janus-Pro,进军文生图领域。

我开始以为也只是“文生图”的应用,当我试用了以后,发现还有一个更牛的功能:“多模态理解”。

说人话就是 AI 能看懂你的照片。

试用网站:https://januspro.org

“Multimodal Understanding 多模态理解”看看它有多牛?

—— Janus-Pro 回答 ——

—— 引用结束 ——

这也太强了吧!以后又多了一位会欣赏我摄影作品的 AI 观众了。

也试了一下“Text-to-Image Generation 文字生成图片”功能,用刚才同样的描述文字生成图片,还差一点意思,可能是分辨率太低。

对于 AI 的试用,我也仅仅局限于此,是最皮毛的基础应用,据我所知,AI 写文案、写 PPT、编程、修图等等很多方面,都已经非常智能了,而我从未涉及过,但就粗浅的试用也感受到:AI 人工智能的发展,已经超出了我的预期,前途不可限量,同时也带来了不少担忧……

补充:

最新消息:2025年2月6日,字节跳动数字人团队推出了新的多模态数字人方案 OmniHuman,其可以对任意尺寸和人物占比的单张图片结合一段输入的音频进行视频生成,生成的人物视频效果生动,具有非常高的自然度。(只找到新闻稿,未找到试用网站,放上几段官方演示视频)

请参考:https://omnihuman-lab.github.io