生成内容AI,进入视频时代!
Meta的“带嘴视频”发布仅一周,谷歌CEO柴柴就接连派出两名选手参赛。
相比Meta的Make-A-Video,first Imagen视频的清晰度很高,可以生成1280*768分辨率,每秒24帧的视频片段。
另一位选手Phenaki可以根据200字左右的提示生成2分多钟的长镜头,讲述一个完整的故事。
看完之后,网友们纷纷表示,这一切进步太快了。
也有网友认为,这项技术一旦成熟,将会冲击短视频行业。
那么,这两个AI的具体能力和特点是什么呢?我们分开来看。
Imagen视频:理解艺术风格和3D结构
Imagen视频也是基于最近大火的扩散模型,直接继承了SOTA模型Imagen,五月的图像生成模型。
除了高分辨率,它还显示了三种特殊能力。
首先,它可以理解并生成不同艺术风格的作品,比如“水彩画”或“像素画”,或者直接“梵高风格”。
它还能理解物体的3D结构,在旋转显示中不会变形。
最后,它继承了Imagen对人物的精准描述能力,并在此基础上,仅通过简单的描述,制作出各种创意动画。
这种效果,直接作为一个视频的标题也不过分吧?
除了出色的应用效果,研究人员表示,其中使用的一些优化技术不仅对视频生成有效,还可以推广到一般的扩散模型。
具体来说,Imagen Video是模型的集合。
语言部分是谷歌自己的T5-XXL。训练后,它冻结文本编码器部分。
与负责从文本特征映射到图像特征的CLIP相比,有一个关键区别:
语言只负责编码文本特征,把文本到图像转换的工作留给后期的视频扩散模型。
基本模型基于生成的图像,以自回归方式连续预测下一帧。首先生成48*24,每秒3帧的视频。
接下来,一系列空间超分辨率和时间超分辨率模型相继对视频进行扩展。
七种扩散模型都使用v-预测参数化方法,与传统方法相比,可以避免视频场景中的颜色偏移。
这种方法推广到一般的扩散模型,也使得样本质量指数的收敛速度更快。
此外,还有渐进式蒸馏,将每次迭代所需的采样步骤减少了一半,大大节省了内存消耗。
这些优化技术相加,最终使生成高清视频成为可能。
费纳基:每个人都可以成为“导演”
Phenaki的论文提交给了ICLR 2023大会,当Meta在一周前发布Make-a-video时,它仍然是匿名和双盲的。
现在信息公开了,原来的研究团队也来自谷歌。
在公开资料中,Phenaki展示了其交互生成视频的能力,可以任意切换视频的整体风格:高清视频/漫画,也可以切换任意场景。
您还可以向Phenaki输入初始帧和提示来生成视频。
这还是开胃菜,Phenaki真正的绝招是:讲故事。可以生成2分钟以上的长视频,输入一系列200多字的提示即可获得。
从文本提示到视频,高计算成本、高质量文本视频数据量有限、视频长度可变一直是这类模型发展中的难题。
过去,大多数AI模型通过单一提示生成视频,但这远远不足以生成一个长而一致的视频。
而Phenaki则可以生成2分钟以上的视频,它也有故事情节,这主要是因为它能够根据一系列提示生成视频。
具体来说,研究人员引入了一种新的因果模型来学习表示视频:视频被视为图像的时间序列。
该模型基于transformer,可以将视频分解成离散的小表示,视频的分解是按照时间的因果顺序进行的。
说的通俗一点,就是通过空间转换器对单个提示进行编码,然后用因果转换器将多个编码后的提示串联起来。
一个提示生成一个视频,这样视频序列就可以沿着提示中描述的时间顺序把整个“故事”串起来。
由于视频被压缩成离散的图像序列,也大大减少了AI处理的标记视频的数量,在一定程度上降低了模型的训练成本。
说到模型训练,像大型图像系统一样,Phenaki主要使用文本-图像数据进行训练。此外,研究人员还使用帧率为8FPS的1.4秒短视频文本来训练Phenaki。
只有通过大量图像文本对和少量视频文本实例的联合训练,才能达到突破视频数据集的效果。
Imagen Video和Phenaki,Google相继放出大招,从文字到视频的AI发展迅速。
值得一提的是,Imagen Video表示,两个团队将在下一步的研究中展开合作。
嗯,有网友等不及了。
还有一点
出于安全和道德原因,谷歌暂时不会发布这两种视频生成模型的代码或演示。
然而,既然论文已经发表,开源副本的出现只是时间问题。
毕竟,Pytorch版本出现在GitHub上仅仅是在Imagen论文问世几个月后。
此外,stability Diffusion背后的StabilityAI创始人兼CEO也表示,将会发布比Meta的Make-A-Video更好的模型,而且会是大家都可以用的那种。
当然,每次AI有新的进展,必然会遇到那个话题——AI会不会取代人类。
目前,一位影视行业的工作者表示时机还不到:
老实说,作为一个在电影行业工作了十年的人,这个话题很让人沮丧。
在他看来,现在的视频一代AI在外人看来已经足够惊艳,但业内人士会认为AI仍然缺乏对每一个镜头的精细控制。
关于这个话题,StabilityAI的新任首席信息官丹尼尔·杰弗里斯(Daniel Jeffries)此前撰文指出,AI最终会带来更多的工作岗位。
比如,照相机的发明虽然取代了大部分肖像画家,但也造就了摄影师,开辟了影视等新产业。
五年后回头看,反对AI和现在反对Photoshop一样奇怪。AI只是另一个工具。
杰弗里斯说,未来是环境人工智能的时代,所有的行业和领域都将在人工智能的加持下发展。
但我们现在需要的是更开放的人工智能环境,也就是开源!
最后,如果现在想玩AI生成的视频,可以先在HuggingFace上试试清华和致远实验室的Cogvideo。
图像:
Phenaki:
Cogvideo演示:
参考链接: