交大教授解读Sora：这是工程实践的成功，将改变影视传媒等行业 |新科普

我的位置：科教 > 创新之城 > 文章详情

分享至：

(9)

(0)

来源：上观新闻作者：俞陶然 2024-02-18 19:16

摘要：Sora的技术原理是什么？其应用价值有多大？

这两天，OpenAI公司发布的文生视频大模型Sora引发全球关注。只要输入一些描述视频画面的提示词，它就能生成一段时长60秒的视频。这些视频的质量和准确性达到了令人惊艳的程度，虽然还存在视频中的动物数量突然改变、沙滩上的椅子凭空出现等瑕疵。

Sora的技术原理是什么？其应用价值有多大？解放日报·上观新闻记者采访了上海交通大学计算机科学与工程系教授赵海。

由两种模型拼接而成

赵海教授介绍，Sora属于多模态混合模型，由大语言模型和文图生成器拼接而成。“文字和图片的差别很大，而图片和视频的差别其实很小。”赵海说，在数字化世界里，图片是一种连续性介质，就像水一样。而汉语、英语等语言文字都是离散的，两个字符之间没有模态意义上的连续性。图片和文字的另一大差别是：前者是二维的，后者是一维的。因此，类似ChatGPT的纯大语言模型无法直接生成图片，通常会调用一个文图生成模型来实现图片生成功能，如OpenAI发布的Dall-E。

纯文图生成模型对提示词的理解能力很弱。比如，用户输入“世界和平”，它往往无法生成准确的图片。如果把文图生成器与大语言模型拼接在一起，后者就能把“世界和平”转化为和平鸽、橄榄枝等文图生成器看得懂的提示词，从而生成切题的作品。

Sora生成的龙年春节短视频

文图生成器经改造后，也能生成视频。在很多人看来，图片和视频有较大差别，其实视频只是多帧图片的快速、连续播放。胶片电影的帧率是每秒24帧，由于“视觉暂留”这种生理现象，人眼在看这些图片时，就产生了影片放映的观感。

因此，从文图生成器过渡到文生视频大模型，不需要很大的技术突破，研发团队主要依靠的是大算力、大模型、大样本训练数据等“先天条件”。“这些条件都是OpenAI所具备的，所以Sora的问世不能算技术革命，而是工程实践的成功。”赵海说。

用扩散模型方法训练

与Midjourney等文图生成模型的技术路线相仿，Sora采用的也是扩散模型。这是一种训练模型的方法，源于物理学中的非平衡热力学。这个学科有一个实验：当你往一杯水里滴入一滴颜料，无论滴在什么位置，只要时间足够长，颜料最终会均匀地分布在溶液中，这就是扩散模型的前向过程。如果你能获得扩散过程中颜料分子的位置、速度等数据，即可反推出颜料的滴入位置，这是扩散模型的反向过程。

从物理实验得到启发，计算机科学家在神经网络的数据训练中引入噪声（类似滴入水杯的颜料），然后通过去除噪声生成图像。经过一段时间训练，神经网络会具备在给定噪声的情况下生成新图像的能力。

经扩散模型方法训练后，Sora展示的一批文生视频案例令人惊艳。比如，输入这样一段提示词：“一位时尚女性走在充满霓虹灯和城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人走来走去。”Sora根据这段话生成的60秒视频效果颇佳，头发、服装等细节都没问题，并实现了连贯的场景转换，达到以假乱真的水平。

Sora生成的时尚女子漫步东京街头短视频