近期全球最为火爆的话题无疑是OpenAI公司发布最新“文生视频”大模型Sora,该公司同时公布了一系列样片,展现了Sora令人惊叹的视频生成效果。据其官网介绍称,Sora继承DALL·E 3的画质和遵循指令能力,能生成长达1分钟的高清视频。
鉴于Sora的强大功能,其发布毫无悬念地再次引发了整个市场的高度关注。有人认为Sora创新的模型架构为大模型的发展开辟了新道路,也有人认为Sora的推出让通用人工智能到来的日期大大提前,还有市场人士表示Sora的爆红与OpenAI高超的营销密不可分。可以预见的是,Sora的横空出世,无疑将促使人工智能引领新一轮行业变革,对部分行业形成强力冲击。
那么,强大的Sora到底惊艳在哪里?OpenAI展示了多段Sora制作的视频内容,光是这些片段,就已经足够让人震惊。Sora不仅可以理解用户的需求,还知道这些事物在现实世界如何存在。创作者只需要输入一段文本,Sora就能自动生成最长1分钟的高清视频。令人难以置信的是,Sora不仅可以准确把握用户文本中的复杂意思,并且还能分拆出不同的元素,将其转换为有具体创意构思的视频内容,看起来就像是专业导演、摄像和剪辑的作品。
也许有人会提出疑问,这些功能并不出奇,包括Runway、Pika Labs和Stable Video很多软件都有类似功能,Sora有何不同?首先是时长遥遥领先,Sora最震撼的技术突破之一在于其输出的视频时长。Runway能够生成4秒长的视频,用户可以将其最多延长至16秒,是AI生成视频在2023年所能达到的最长时长纪录。Stable Video也提供4秒的视频,Pika则提供3秒的视频。在这一方面,Sora以1分钟的时长可以秒杀全部对手。
其次是Sora带有世界模型的特质。所谓世界模型便是对真实的物理世界进行建模,让机器能够像人类一样,对世界产生一个全面而准确的认知。这一特性使得AI视频生成更流畅、更符合逻辑,降低了视频模型的训练成本,提升了训练效率。同时,Sora视频在构图、色彩、创意和运镜方面,都呈现出明显的电影风格,无论是一镜到底还是多机位都可以无缝切换,甚至还有“演员”的表情神态,这是此前的文生视频产品所不具备的。可以说,OpenAI一出手就将整个AI视频行业提升了一个级别。
Sora如此惊艳,最直接受到冲击的就是视频同行们,特别是一些小型视频创作公司。Sora发布之后,AI视频创业公司们集体哀嚎,无论是视频时长,还是画面精细度,还是细节完整性,或是多镜头拍摄,Sora都远远超越了这些小创业公司的视频,用碾压来形容也并不为过。虽然AI视频领域还有着巨大的提升和增长空间,但这些小公司的未来是否有能力与OpenAI竞争依然是个巨大的疑问。同时,会撼动电影、电视、广告、游戏行业的未来游戏规则。业内人士主要是担心制片方使用现有素材进行AI训练,未来频繁使用AI工具生成内容,这不仅侵犯到了创作者已有作品的版权,没有给他们足够的回报,更会影响到创作者未来的工作机会和空间。
科技的发展与进步始终是人类不断取得进步的必要因素,Sora的诞生势必会带来很多改变,砸掉很多人的饭碗,但从人类发展的历史进程来看,无疑是一次利好,只有更多的Sora们不断诞生,人类才能不断取得进步。