谷歌AI生成视频两连发：720p高清+长镜头，网友：对短视频行业冲击太大-财经媒体网

谷歌AI生成视频两连发：720p高清+长镜头，网友：对短视频行业冲击太大

发布人：杜玉梅信息来源：网络发布日期：2022-10-07 16:00 阅读量：8455

生成内容AI，进入视频时代！

Meta的“带嘴视频”发布仅一周，谷歌CEO柴柴就接连派出两名选手参赛。

相比Meta的Make-A-Video，first Imagen视频的清晰度很高，可以生成1280*768分辨率，每秒24帧的视频片段。

另一位选手Phenaki可以根据200字左右的提示生成2分多钟的长镜头，讲述一个完整的故事。

看完之后，网友们纷纷表示，这一切进步太快了。

也有网友认为，这项技术一旦成熟，将会冲击短视频行业。

那么，这两个AI的具体能力和特点是什么呢？我们分开来看。

Imagen视频:理解艺术风格和3D结构

Imagen视频也是基于最近大火的扩散模型，直接继承了SOTA模型Imagen，五月的图像生成模型。

除了高分辨率，它还显示了三种特殊能力。

首先，它可以理解并生成不同艺术风格的作品，比如“水彩画”或“像素画”，或者直接“梵高风格”。

它还能理解物体的3D结构，在旋转显示中不会变形。

最后，它继承了Imagen对人物的精准描述能力，并在此基础上，仅通过简单的描述，制作出各种创意动画。

这种效果，直接作为一个视频的标题也不过分吧？

除了出色的应用效果，研究人员表示，其中使用的一些优化技术不仅对视频生成有效，还可以推广到一般的扩散模型。

具体来说，Imagen Video是模型的集合。

语言部分是谷歌自己的T5-XXL。训练后，它冻结文本编码器部分。

与负责从文本特征映射到图像特征的CLIP相比，有一个关键区别:

语言只负责编码文本特征，把文本到图像转换的工作留给后期的视频扩散模型。

基本模型基于生成的图像，以自回归方式连续预测下一帧。首先生成48*24，每秒3帧的视频。

接下来，一系列空间超分辨率和时间超分辨率模型相继对视频进行扩展。

七种扩散模型都使用v-预测参数化方法，与传统方法相比，可以避免视频场景中的颜色偏移。

这种方法推广到一般的扩散模型，也使得样本质量指数的收敛速度更快。

此外，还有渐进式蒸馏，将每次迭代所需的采样步骤减少了一半，大大节省了内存消耗。

这些优化技术相加，最终使生成高清视频成为可能。

费纳基:每个人都可以成为“导演”

Phenaki的论文提交给了ICLR 2023大会，当Meta在一周前发布Make-a-video时，它仍然是匿名和双盲的。

现在信息公开了，原来的研究团队也来自谷歌。

在公开资料中，Phenaki展示了其交互生成视频的能力，可以任意切换视频的整体风格:高清视频/漫画，也可以切换任意场景。

您还可以向Phenaki输入初始帧和提示来生成视频。

这还是开胃菜，Phenaki真正的绝招是:讲故事。可以生成2分钟以上的长视频，输入一系列200多字的提示即可获得。

从文本提示到视频，高计算成本、高质量文本视频数据量有限、视频长度可变一直是这类模型发展中的难题。

过去，大多数AI模型通过单一提示生成视频，但这远远不足以生成一个长而一致的视频。

而Phenaki则可以生成2分钟以上的视频，它也有故事情节，这主要是因为它能够根据一系列提示生成视频。

具体来说，研究人员引入了一种新的因果模型来学习表示视频:视频被视为图像的时间序列。

该模型基于transformer，可以将视频分解成离散的小表示，视频的分解是按照时间的因果顺序进行的。

说的通俗一点，就是通过空间转换器对单个提示进行编码，然后用因果转换器将多个编码后的提示串联起来。

一个提示生成一个视频，这样视频序列就可以沿着提示中描述的时间顺序把整个“故事”串起来。

由于视频被压缩成离散的图像序列，也大大减少了AI处理的标记视频的数量，在一定程度上降低了模型的训练成本。

说到模型训练，像大型图像系统一样，Phenaki主要使用文本-图像数据进行训练。此外，研究人员还使用帧率为8FPS的1.4秒短视频文本来训练Phenaki。

只有通过大量图像文本对和少量视频文本实例的联合训练，才能达到突破视频数据集的效果。

Imagen Video和Phenaki，Google相继放出大招，从文字到视频的AI发展迅速。

值得一提的是，Imagen Video表示，两个团队将在下一步的研究中展开合作。

嗯，有网友等不及了。

还有一点

出于安全和道德原因，谷歌暂时不会发布这两种视频生成模型的代码或演示。

然而，既然论文已经发表，开源副本的出现只是时间问题。

毕竟，Pytorch版本出现在GitHub上仅仅是在Imagen论文问世几个月后。

此外，stability Diffusion背后的StabilityAI创始人兼CEO也表示，将会发布比Meta的Make-A-Video更好的模型，而且会是大家都可以用的那种。

当然，每次AI有新的进展，必然会遇到那个话题——AI会不会取代人类。

目前，一位影视行业的工作者表示时机还不到:

老实说，作为一个在电影行业工作了十年的人，这个话题很让人沮丧。

在他看来，现在的视频一代AI在外人看来已经足够惊艳，但业内人士会认为AI仍然缺乏对每一个镜头的精细控制。

关于这个话题，StabilityAI的新任首席信息官丹尼尔·杰弗里斯(Daniel Jeffries)此前撰文指出，AI最终会带来更多的工作岗位。

比如，照相机的发明虽然取代了大部分肖像画家，但也造就了摄影师，开辟了影视等新产业。

五年后回头看，反对AI和现在反对Photoshop一样奇怪。AI只是另一个工具。

杰弗里斯说，未来是环境人工智能的时代，所有的行业和领域都将在人工智能的加持下发展。

但我们现在需要的是更开放的人工智能环境，也就是开源！

最后，如果现在想玩AI生成的视频，可以先在HuggingFace上试试清华和致远实验室的Cogvideo。

图像:

Phenaki:

Cogvideo演示:

参考链接:

免责声明：该文章系本站转载，旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议，仅供读者参考。返回首页