画家在画布上戳点,形成手绘作品独特的笔触。
你觉得这是哪部纪录片?
不不不。
视频中的每一帧都是AI生成的。
或者告诉它,来一个“画布上的画笔特写”,它就能直接创作出整个画面。
不仅可以凭空画出画笔,照着马头喝水也不是不可以。
还是那句话“马儿喝水”,这个AI抛出了这张图:
好家伙,这是以后做视频的节奏。真的是靠一张嘴...
是的,在那种情况下,AI绘制的文本到图像是蓬勃发展的,Meta AI这种情况下的研究人员对AI一代进行了超级进化。
这次真的可以“用嘴做视频”了:
人工智能被称为Make-A-Video,它直接从DALL的静态和稳定扩散中生成飙升的动态。
给它几个字或者几行文字,就能生成这个世界上实际上不存在的视频画面,还能掌握很多风格。
不仅纪录片风格能hold住,整个科幻效果也不错。
当两种风格混合在一起时,时代广场上跳舞的机器人似乎毫无矛盾感。
小文艺清新的动画风格,看来Make-A-Video也把握住了。
经过这么一波操作,真的让很多网友看傻了,连评论都简化成三个字母:
大个子乐村意味深长地说:该来的总会来。
毕竟在一句话生成视频之前,很多业内人士都觉得“快”。不过,元这一手真的有点快:
比我想象的快了九个月。
甚至有人说:我适应不了AI的进化速度...
文本生成模型的超级进化版本
你可能会认为Make-A-Video是DALL的视频版本。
实际上,差不多就是这么回事。
如前所述,制作视频是文本图像生成模型的超级进化。那是因为这个AI工作的第一步实际上是依靠文本来生成图像的。
从数据上看,是DALL E等静态图像生成模型的训练数据,是成对的文本-图像数据。
虽然Make-A-Video最终会生成视频,但它并没有使用成对的文本-视频数据进行专门训练。相反,它仍然依赖于文本-图像数据,让AI学习根据文字再现图片。
当然,视频也参与其中,但它主要是用一个单独的视频片段来教会AI如何在现实世界中移动。
具体到模型架构,Make-A-Video主要由三部分组成:
文本图像生成模型p
时空卷积层和注意层
一个用于提高帧速率的帧内插网络和两个用于提高图像质量的超级子网。
整个模型的工作过程就是酱阿姨的工作过程:
首先,根据输入文本生成图像嵌入。
然后,解码器Dt生成16帧64×64 RGB图像。
插值网络F将对初步结果进行插值,以实现理想的帧速率。
然后画面的分辨率会被第一个超分网络提升到256×256。第二超级子网络继续优化,进一步提升画质至768×768。
基于这一原理,Make-A-Video不仅可以根据文字生成视频,还具有以下能力。
将静止图像转换为视频:
从原始视频生成新视频:
刷新文本视频生成模型SOTA
事实上,Meta的Make-A-Video并不是第一次尝试从文本生成视频。
例如,清华大学和致远在今年早些时候推出了他们自研的“一句话视频生成”AI:CogVideo,并且这是目前唯一开源的T2V模型。
此前,GODIVA和微软的“女娲”也实现了根据文字描述生成视频。
然而这一次,视频制作的质量明显提高了。
在MSR-VTT数据集上的实验结果表明,Make-A-Video大大刷新了SOTA在FID和CLIPSIM上的成绩(0.3049)。
此外,Meta AI的团队还使用Imagen的DrawBench进行了主观评测。
他们邀请测试人员体验制作视频,并主观评价视频和文本之间的逻辑对应关系。
结果表明,制作视频在质量和逼真度上都优于其他两种方法。
还有一点
有趣的是,Meta在发布新AI的同时,似乎也拉开了T2V机型竞赛的序幕。
StabilityAI,stability Diffusion的母公司,坐不住了。创始人兼首席执行官艾玛德说:
我们将发布一个比制作视频更好的模型,每个人都可以使用的模型!
就在几天前,一篇相关论文出现在ICLR网站上。
生成的效果是这样的:
对了,虽然Make-A-Video还没有公开,但是Meta AI官方也表示已经准备推出试玩版让大家实际体验一下,有兴趣的朋友可以蹲一会儿~
论文地址:
参考链接: