2024年2月发布的文生视频模型Sora引起关注。这一技术的问世被认为是视频生成领域的重大突破。对比同样引起轰动的ChatGPT,二者在技术路线和产品定位上有所联系,又有所区别。一方面Sora结合了ChatGPT所采用的模型架构,能够结合数个静止画面生成连续的视频,也可以自动修补残缺的视频段。另一方面Sora和ChatGPT都有良好的自然语言理解能力,可以根据用户的描述生成与调整视频内容,也可以对用户提供的素材进行总结归纳和补充。Sora的问世是OpenAI在模型架构、数据管理等方向积累创新的结果,其背后是GPT系列的技术转化和新技术创新的融合。ChatGPT侧重于对文本内容的理解和生成,用户可以与之进行对话问答,也可以指令其撰写文章、编写代码等,其基础功能主要由文字交互实现。最常见的应用场景主要是文本内容的处理,包括对文字的解读、重组、拓展、排序等。Sora则侧重于视频内容的创造,其核心功能是根据文本提示生成视频内容,在理解和模拟物理世界的前提下,构造出虚拟的世界并展现这个世界的交互规律。
文生视频模型都在多个方面表现出强大的能力,但其本身并不完美。类似的生成式模型仍然存在一些问题,如不能完全反映所有的物理规律,主要表现为一些违背生活常识和科学认识的情况仍然会发生。上述文生视频模型缺陷由来已久,并且在短期内难以得到很好的解决,在维持、扩大模型优势的同时克服这些缺陷将成为人工智能产业下一阶段的重点。
首先文生视频模型的首要缺陷是其巨量的算力资源消耗。相较于主流的大语言模型算力,图像参数要占用更多的算力资源。为了追求更好的模型性能,全球人工智能产业的算力需求还会进一步提高,算力匮乏的国家和地区将处于技术不利地位。
其次是模型幻觉现象依然严重。与文本生成模型类似,视频生成模型也受幻觉效应影响。训练数据在压缩等处理环节中失真、用户提示词过于模糊或者根据安全策略不能响应时,模型会被迫填补空缺内容。这种填补有可能使模型陷入幻觉认识,输出与事实不符或者用户未要求的内容。
最后是生成视频细节上存在常识性错误。文生视频模型对物理法则的认识还停留在初级阶段,它能够正确反映人和物体宏观上的互动关系,但还不能准确把握涉及物体形状改变的物理规律。生成式人工智能既可能因为缺乏认知而生成错误内容,也可能因为被不当灌输认知而生成错误内容。比如,当人物咬下一口饼干后,饼干却依旧保持完整。虽然这类常识性错误通常被控制在很小的规模,但依旧说明模型对真实物理规律的理解还停留在较浅层次。
Sora的技术路线和性能表现依托于大语言模型基座提供的强大的自然语言理解能力。未来用户与生成式人工智能的交互会越来越轻松,模型也会因为被大量用户使用而得到进一步的反馈训练。研发能够理解、再现甚至模拟物理交互的生成式人工智能将成为新的产业发展方向。
一是媒体行业能够借助此类工具提高内容生产效率,包括电视剧、电影、自媒体等行业在内。随着生成时长、场景准确度、提示词遵循度等性能指标的不断提升,生成式人工智能将有效降低媒体行业的制作成本和从业门槛,改变媒体行业的内容生态。融合各种模型架构的生成式人工智能还将在未来胜任不同内容的具体任务,例如可以同时参与电影的脚本编写、选角协助、镜头规划和剪辑辅助等。在完整意义上的通用人工智能出现以前,可以并行承担某个领域或行业内所有工作的准通用人工智能可能会先一步进入社会生产当中。
二是创意产业生态会因生成式人工智能的不断发展而变化。文生视频模型所生成的虚拟视频具备想象力和设计感,能根据关键词、图片或视频生成相关内容,创作者可以将自己的设计、思路和半成品交给人工智能,让其生成完整的创意作品;或者找寻已有作品中的可改进之处。现阶段的生成式人工智能多搭载连接多个不同媒体形式的功能,可以融合文字、声音、图像、视频等各形式素材,创造极其丰富的内容。生成式人工智能产业会不断强化模型对人思想的呈现能力,大幅降低内容创作者的门槛。普通人也将有机会描绘自己心中的艺术世界,创意作品的内容和形式将变得更加丰富,创意产业有望迎来新的发展。
三是游戏与仿真产业将借助生成式人工智能获得新的发展方向。新一代生成式人工智能展现出的数字模拟能力无疑会进一步降低游戏的制作门槛,使小团队也能独立完成大制作的开发;这项突破还给数字仿真带来了新的技术路线——如果生成式人工智能能够正确且精准地认识物理规律,那么利用模型演算、预测复杂事件走向将成为可能。未来,生成式人工智能会越来越接近一个完整的虚拟世界引擎。
四是生成式人工智能有望成为元宇宙世界的基点,它们的表现在一定程度上融合了虚拟与现实,一旦与物联网、脑机接口等前端技术结合,将会给社会带来全新的信息交互方式。在大规模的训练后,不仅可以通过图像理解视觉世界,还可以对现实世界进行模拟。虽然相关技术还有很大的进步空间,但是最先进的生成式人工智能已经能够模拟部分的物理交互。文生视频只是新一代生成式人工智能的表现形式。物理模拟模型的本质作用是进一步融合虚拟与现实,从虚拟中创造出无限接近现实的内容。由此可见,生成式人工智能有望成为元宇宙建构的另一个基点。
正如婴儿无数次看到母亲从一个地方消失又出现,他才能渐渐理解这个世界的物理法则,生成式人工智能已经开始通过观察动态的视频学习3D一致性、物体连贯性等物理常识。算法从理解这个世界的真实物理关系到模拟出逼真的物理世界,或许只需要短短的数年时间。在这期间,先进的生成式人工智能可以赋能专用工业软件,拓展其功能边界、提升解决问题的效率。更多以模拟世界为目标的模型将会问世,精准地模拟过去难以实现的场景,在自动驾驶研发、产品设计、电影制作等业务中发挥作用。在人工智能的辅助下,更多的人能够在更短的学习周期内就掌握完成多数工作任务的能力,社会劳动力将会得到进一步的解放,出现在我们眼前的生成式人工智能绝不只是单纯的视频生成模型,而是AI与真实世界互动的开始。