近期全球最爲火爆的話題無疑是OpenAI公司發布最新“文生視頻”大模型Sora,該公司同時公布了一系列樣片,展現了Sora令人驚嘆的視頻生成效果。據其官網介紹稱,Sora繼承DALL·E 3的畫質和遵循指令能力,能生成長達1分鐘的高清視頻。
鑑於Sora的強大功能,其發布毫無懸念地再次引發了整個市場的高度關注。有人認爲Sora創新的模型架構爲大模型的發展開闢了新道路,也有人認爲Sora的推出讓通用人工智能到來的日期大大提前,還有市場人士表示Sora的爆紅與OpenAI高超的營銷密不可分。可以預見的是,Sora的橫空出世,無疑將促使人工智能引領新一輪行業變革,對部分行業形成強力衝擊。
那麼,強大的Sora到底驚豔在哪裡?OpenAI展示了多段Sora製作的視頻內容,光是這些片段,就已經足夠讓人震驚。Sora不僅可以理解用戶的需求,還知道這些事物在現實世界如何存在。創作者只需要輸入一段文本,Sora就能自動生成最長1分鐘的高清視頻。令人難以置信的是,Sora不僅可以準確把握用戶文本中的複雜意思,並且還能分拆出不同的元素,將其轉換爲有具體創意構思的視頻內容,看起來就像是專業導演、攝像和剪輯的作品。
也許有人會提出疑問,這些功能並不出奇,包括Runway、Pika Labs和Stable Video很多軟件都有類似功能,Sora有何不同?首先是時長遙遙領先,Sora最震撼的技術突破之一在於其輸出的視頻時長。Runway能夠生成4秒長的視頻,用戶可以將其最多延長至16秒,是AI生成視頻在2023年所能達到的最長時長紀錄。Stable Video也提供4秒的視頻,Pika則提供3秒的視頻。在這一方面,Sora以1分鐘的時長可以秒殺全部對手。
其次是Sora帶有世界模型的特質。所謂世界模型便是對真實的物理世界進行建模,讓機器能夠像人類一樣,對世界產生一個全面而準確的認知。這一特性使得AI視頻生成更流暢、更符合邏輯,降低了視頻模型的訓練成本,提升了訓練效率。同時,Sora視頻在構圖、色彩、創意和運鏡方面,都呈現出明顯的電影風格,無論是一鏡到底還是多機位都可以無縫切換,甚至還有“演員”的表情神態,這是此前的文生視頻產品所不具備的。可以說,OpenAI一出手就將整個AI視頻行業提升了一個級別。
Sora如此驚豔,最直接受到衝擊的就是視頻同行們,特別是一些小型視頻創作公司。Sora發布之後,AI視頻創業公司們集體哀嚎,無論是視頻時長,還是畫面精細度,還是細節完整性,或是多鏡頭拍攝,Sora都遠遠超越了這些小創業公司的視頻,用碾壓來形容也並不爲過。雖然AI視頻領域還有着巨大的提升和增長空間,但這些小公司的未來是否有能力與OpenAI競爭依然是個巨大的疑問。同時,會撼動電影、電視、廣告、遊戲行業的未來遊戲規則。業內人士主要是擔心製片方使用現有素材進行AI訓練,未來頻繁使用AI工具生成內容,這不僅侵犯到了創作者已有作品的版權,沒有給他們足夠的回報,更會影響到創作者未來的工作機會和空間。
科技的發展與進步始終是人類不斷取得進步的必要因素,Sora的誕生勢必會帶來很多改變,砸掉很多人的飯碗,但從人類發展的歷史進程來看,無疑是一次利好,只有更多的Sora們不斷誕生,人類才能不斷取得進步。