思想者｜杨小康：不只是技术迭代，Sora带来的是一场深刻变革

我的位置：观点 > 思想汇 > 文章详情

分享至：

(13)

(0)

来源：上观新闻作者：杨小康 2024-03-10 06:30

摘要：守住底线、提升基线、打开天际线，积极、包容、审慎地应对生成式人工智能的发展。

【编者按】今年初，OpenAI推出的文生视频大模型Sora引爆全网，被视为“颠覆性”的存在。Sora模型有什么特点？当前人工智能有何发展趋势？Sora代表的人工智能技术对社会有哪些影响？我们又该如何应对？上海交通大学人工智能研究院常务副院长杨小康教授日前在中共上海市委党校的演讲中，对上述问题一一给出回答。

近期，OpenAI发布了文生视频大模型Sora，人工智能技术又一次有了质的飞跃，再次引起了轰动。生成式人工智能代表了新时期人工智能的发展方向，它将重塑人类未来。

回顾历史，人工智能发轫于1956年，是一种模拟人类智能的技术，通过机器学习、深度学习、自然语言处理等技术实现了在数据处理、模式识别、决策推理等方面的自动化和智能化。2013年，深度学习技术在语音识别、视觉识别等任务上取得重要突破。此后10余年，人工智能场景融合能力不断提升，人工智能技术在全球范围内都得到了广泛应用和发展。

Sora模型有什么特点？当前人工智能有何发展趋势？Sora代表的人工智能技术对社会有哪些影响？我们又该如何应对？今天的演讲，我就围绕上述问题跟大家分享个人的一些思考。

Sora的特点：真、灵、动

人工智能主要可以分为判别式人工智能和生成式人工智能两大类模型。判别式人工智能学习从输入数据到输出标签的映射关系，我国在视频监控、语音识别等判别式人工智能的应用上取得了巨大成功，它造就了我国人工智能过去十年的辉煌。然而，判别式人工智能的瓶颈日益凸显，主要问题在于难以保证通用性。生成式人工智能则是通过学习实现对输入数据的生成和创作性任务的人工智能技术。自2022年以来，以ChatGPT（AI对话）、Midjourney（AI文生图）、Sora等为代表的生成式人工智能通过综合运用大数据、大算力、大模型，展现出惊人的创造能力、通用能力、涌现能力。

Sora模型的特点可以总结为“真、灵、动”。所谓“真”，是指Sora生成的视频真实感强，能够很好地表现提示词的内容语义，视频细节呈现得恰到好处。“灵”是指生成的视频有一定的灵性和艺术性，Sora生成的短视频无论质量还是艺术性，都有一定的保证。“动”就是视频中运动的场景和物体的结构性和时空关联性很好。

那么，从技术角度说，Sora是如何体现上述特点的呢？

Sora通过扩散模型（Diffusion model）来实现“真”和“灵”。扩散模型是一种借鉴物理热力学中扩散原理的生成模型，通过加噪、去噪，实现由文本驱动图像生成。当然，大数据对于扩散模型的训练也非常重要，Sora“看”过大量高质量的图像，“阅图无数”让扩散模型能够学到很精细的特征，从而根据提示词生成细节精细的图像。

Sora的“动”则是有赖于 Transformer（中文通常翻译为“变形金刚”或“变压器”）。Transformer就是GPT里面的T，它本质上是具备“自注意”和“自监督”学习能力的新型神经网络。首先是“自注意”。比如输入 “东方明珠是上海的标志性建筑之一”这么一句话，Transformer通过“自注意”机制能够自动学习到“东方明珠”和“上海”之间的关系，不仅能够注意到“东方明珠”是一个特定的名词，而且还能注意到它与“上海”及其“著名地标”之间的关联性。“自监督”指的是，在一篇文章中随机遮掉一定比例的单词或者句子，让Transformer自己监督自己，学会做完形填空（填上“东方明珠”这个名字）、句子接龙（接上“东方明珠是上海的标志性建筑之一”这个句子），甚至更复杂的任务。之前的机器学习的主要瓶颈就是学习数据不够，在具备了“自监督”学习能力之后，人类所有的语言数据都可以用于训练人工智能模型。GPT、BERT等大语言模型都基于 Transformer。在GPT等大语言模型基础上，Sora先将视频表示为图像块（Patch），再用图像块来代替文字输入Transformer，就能够学到物体跟物体、人跟物体、人跟人、光跟影等之间的关系。

总之，基于扩散模型和Transformer，Sora能够实现“真、灵、动”。另外，Sora通过大算力和大数据使得它的性能能够持续地提高，模型能力随着参数的增长而增强，并呈现出强大的推理能力。

OpenAI公司能够把人工智能的数据、模型、算力的规模和性能在如此短的时间内提升到当前的程度，是令人惊讶的。这反映了目前人工智能技术的一个趋势——“迭代速度越来越快”，其背后可能有一个 “AI摩尔定律”在驱动。OpenAI首席执行官Sam Altman最近提出“宇宙中的智能数量每18个月翻一倍”，被称为“AI摩尔定律”。Midjourney、DALL-E3等文生图大模型兴起时间不长，短短一年左右时间，Sora在文生视频技术上就又有了质的飞跃，这在某种程度上佐证了“AI摩尔定律”。有理由相信，“AI摩尔定律”在相当长的时期内可以得到延续。

生成式人工智能正在成为新质生产力

以Sora为代表的生成式人工智能被比尔·盖茨等人称为“最具革命性技术”。生成式人工智能作为新质生产力，正从广度和深度上影响人类发展。

在广度上，生成式人工智能正在成为“人机共生”时代的新型生产力。具体而言，在办公方面，微软公司将大模型嵌入到Microsoft 365，打通了整个微软办公生态，帮助用户解锁生产力，释放创造力，升级各种技能。在编程领域，人工智能代码提示工具 GitHub Copilot，可以为开发者提供约46%的代码提示和自动补全，程序开发效率提升55%。在工业领域，大模型可以用于机器人控制，直接利用自然语言操控无人机、机械臂。在服务业领域，ChatGPT Plugin涵盖了订票、点餐等功能。此外，生成式人工智能正在引发搜索引擎的变革，微软最近推出New Bing的试用版集成了ChatGPT，新增连续聊天功能，从具有事实来源的网页中总结归纳出答案，并且反馈用户可能进一步关心的问题。可以说，大模型将是人工智能时代的“操作系统”，承载并协同众多的人工智能插件、垂直领域模型；通过大模型的API连接现实世界和智能机器人，优化产品设计、工业物流、制造流程、市场营销、组织管理等，从而显著提高生产效率。因此，生成式人工智能作为新型的生产力，正在全方位地融入人类的工作、生活、学习、科研，显著提升效率和质量，一个“人机共生”的时代已经拉开序幕。

同时，生成式人工智能正在成为新型的创造力。以电影产业为例，Sora为代表的文生视频技术将重塑影视行业。在传统电影创作流程中往往存在一个“绝望的深渊”，即电影从创意到初稿通常会有一段特别痛苦的时候，初稿很难制作出来，从而导致创作拖延。现在，利用Sora这样的文生视频技术就可以快速推出创意初稿，后续的改进和迭代也得以加速。这样的技术还有望帮助生成流体、烟雾、毛发等高度复杂、具有真实感的动态效果，减少特效艺术家的人工干预，特效制作和后期制作的时间得以显著缩短。一个更新的应用例子是，生成式人工智能正在成为开拓元宇宙、构建世界模型和生产数字人的强大工具。元宇宙的核心功能是物理世界的模拟和人的虚拟化，生成式人工智能可以实现人和物的虚拟化、促进虚实融合，实现效率和体验的提升。世界模型指的是现实物理世界的模拟器，Sora生成的视频在视觉上很大程度具备跟现实物理世界的一致性，尽管它还不具备真正理解内在物理规律的能力，但是它也可以被视为对现实世界的某种广义模拟。最新的生成式人工智能技术已经可以制作高拟真、规模化的三维虚拟数字人，简化三维建模流程，提升渲染真实感。未来的生成式人工智能技术将进一步结合科学规律，使得物理世界的模拟更逼真，数字人更丰富、更立体，数字人与世界模型能够有效交互。

在深度上，生成式人工智能正在加速科学发现。在生物、化学、医药等领域，大模型可以将分子式、基因序列、蛋白质结构视为一种形式化的语言，并已取得多项颠覆性成果。众多的重大科学突破和国内外的发展趋势，预示着AI for Science正在成为赋能科学研究的第五范式（利用人工智能加速科学发现的新方法）。与前四种范式（经验、理论、计算和数据）不同，AI for Science不仅充分运用已有的经验、理论和数据，而且生成全新的科学假设和逼真的自然现象，推导出未知的结论，提高科学研究的速度和准确性，探索更广阔的可能性空间。相对于日常生活领域的AIGC（人工智能生成的内容），科学领域的生成式人工智能模型对于人类进步的意义更为深远，从微观的分子及物质结构生成，到中观的流场和反应过程建模，再到宏观的大气、行星、黑洞等物理天文现象推演，将从本质上推动科学发展。

“三条线”策略应对人工智能发展带来的挑战

Sora代表的生成式人工智能技术在带来机遇和变革的同时，也带来了潜在的风险和挑战。面对这样的环境，我提出“三条线”的应对策略，即守住底线、提升基线、打开天际线。

一是审慎地守住监管的底线。目前的生成式人工智能及大模型是基于概率统计模型的神经网络结构和试错迭代的强化学习机制，从技术的角度看，要做到完全不犯错误几乎是不太可能的，其发展需要“宽严相济”的环境。“宽”是指在模型训练和研发阶段需要一个相对宽松的、容错的技术创新环境；“严”是指在实战应用的环节需要严格的警示和监管手段。面对生成式人工智能带来的风险，需要审慎地制定规范，从而守住底线，包括安全、隐私、合规、版权、诚信等。首先是要严格防范深度造假等违法行为。由于生成式人工智能技术降低了深度造假的技术门槛，犯罪分子可以以很低的成本实施诈骗、传播虚假新闻，扰乱社会秩序，危害社会安全。以短视频传播假新闻为例，之前造假者可能还得具备撰写新闻的基本知识和拍摄视频的专业设备，而现在可以轻易利用大语言模型生成新闻文本，进而用文生视频大模型输出短视频，从而使得制作假新闻短视频的门槛大大降低。其次是要适当警示AIGC的技术风险。由于目前的生成式人工智能技术本质上是一个“黑箱”模型，尚不具备完全的可信性，在一定程度上会产生夸张、误导、错误的信息，某些中性甚至是善意的信息都存在被生成式人工智能技术意外歪曲的风险，相较于恶意行为，这类风险的涉及面更广、更难防范，也更难被定义。政府在应对这些新问题和新挑战时，需要及时完善综合治理体系，结合技术发展趋势形成系统的规范体系，包括网络安全、数据安全、个人信息保护等。同时，要建立AIGC内容的监测工具箱：（1）对伪造的文字、语音、视频等进行有效甄别的工具；（2）对短视频和文字新闻等AIGC进行标示的工具和措施；（3）对AIGC进行追溯的数字水印工具。

二是包容地提升普及的基线。生成式人工智能是新型生产力和创造力，它在诸多行业极大地提升工作效率，引发行业变革。应对这种新的趋势，需要包容、普惠地推广生成式人工智能技术，提升全民运用生成式人工智能的基线，全面提升社会生产效率。通过科学普及，让民众了解人工智能技术，消除对人工智能的偏见、误解、神化、妖魔化，让民众无需花费大量的时间和金钱成本，就可以利用人工智能工具提升学习、工作、生产、生活的效率。通过教育培训，培养一批人工智能数据工程师、AIGC工程师、元宇宙设计师、数字建造师等新型人才，创作适应人工智能发展的新的工作岗位。全面提升基线，让民众积极地去接受、去拥抱、去利用生成式人工智能，从而大规模地释放新质生产力，带来新的创造力。

三是积极地打开创新的天际线。面对日新月异的人工智能技术所带来的世界变革，我们不能只满足于做追随者、使用者，更要凝聚力量成为人工智能技术的全球创新引领者。产业精英、科研机构和高校等要在底线和基线之上，打开人工智能无限可能的天际线，努力开拓产业前沿和科学前沿。要做到打开产业的天际线，我们需要先明确当今时代人工智能技术的三个核心要素，即大算力、大数据、大模型。这三条核心要素在本质上非常契合于我国发挥新型举国体制促进人工智能发展的优势。在大算力方面，国产GPU正在发力，区域乃至全国的算力网正在形成。在大数据方向，正在建立可信数据联盟。在这样的环境下，国产大模型争相涌现，呈现“百模大战”的态势。从2023年底开始，十多个大模型陆续通过《生成式人工智能服务管理暂行办法》备案。在百花齐放、大浪淘沙的态势下，竞争终将形成合力，国产大模型在功能和性能上有望缩小跟西方发达国家的差距。通过顶层设计、相容激励、有序引导，从容应对Sora带来的新一轮冲击，国产大模型一定可以“大力出奇迹”。除了产业之外，科学技术是第一生产力，人工智能也正在为科学研究开拓无尽的前沿，这需要在国家层面构筑智能化科学设施，形成自发假设生成、自动规律推演、自主无人实验、自驱可信协作等创新功能，加速重大科学发现、变革性物质合成，以及重大工程技术应用。

总之，生成式人工智能带来的不只是技术迭代，而是一场深刻变革。社会各界应共同努力，守住底线、提升基线、打开天际线，积极、包容、审慎地应对生成式人工智能的发展。展望未来，我国发挥新型举国体制优势，营造宽严相济创新环境，虚拟和现实深度融合，创新和监管有效协同，生成式人工智能将激发新质生产力，从而促进数字经济发展和科学技术进步。

【思想者小传】