超訊通信股份有限公司-STS超訊

行業動態丨AI多模態應用持續發酵，競逐文生視頻模型藍海

發布時間：2024-03-16 14:32:21 瀏覽次數：2030

在全球AI視頻技術熱潮持續沸騰的背景下，據了解，愛詩科技近日獲得了電廣傳媒旗下達晨財智億級A1輪融資領投，資金將主要用于底層視頻大模型的技術研發及團隊搭建等方面。這進一步印證了業界對AI視頻技術的熱烈追捧。

Sora的橫空出世，激發了全球科技公司競相角逐AI視頻革新賽道。各家企業猶如八仙過海，各顯神通，如Stability AI上線公測SVD視頻平臺、七火山發布了文生視頻模型Etna、Pika上線了新功能——可以給視頻對口型的Lip Sync和根據內容自動生成聲音的音效生成功能、LTX Studio上線視頻AI制作平臺、Meta發布AI自動剪輯視頻工具。

作為人工智能領域的積極探索者，超訊通信從去年就開始部署AI生態，已完成“算力-數據-AI”新業務布局。今年年初，公司敏銳洞察到AI視頻的市場潛力，與AI多模態應用公司Hong Kong Inequation Limited簽署了相關投資協議，成為該公司占股30%的第一大股東。

Etna文生視頻模型是由Hong Kong Inequation Limited業務品牌七火山研發，在設計和開發上采取了一系列革命性的技術突破，這些突破不僅提升了視頻內容的質量，還極大地增強了模型的應用潛力。其主要創新點包括：

01 視頻幀率高達4K

Etna模型支持生成視頻時長達到8-15秒，且視頻流暢度極高，每秒可達60幀。這一特性使得Etna生成的視頻不僅內容豐富，而且視覺效果流暢自然，極大提升了用戶觀看體驗。

02 深度語義理解能力

Etna模型背后的技術架構，特別強調了對輸入文本的深度理解。借鑒了sora模型的成功經驗，Etna能夠更準確地捕捉和轉化文本信息為視頻內容，使得生成的視頻不僅忠實于原文意圖，還能豐富展現文本的細微情感和場景。

03 高清晰度與豐富細節

與早期的視頻生成模型相比，Etna在視頻清晰度和圖像細節方面取得了顯著進步。這意味著Etna能夠產生高質量的視頻內容，每個場景的細節都被精細呈現，為觀眾帶來身臨其境的視覺享受。

04 技術架構的創新

Etna模型融合了diffusion模型和transformer模型的優勢，通過這種結合，形成了一種高效且先進的新型模型架構。這不僅提升了模型的生成效率，還保證了生成內容的高質量和高一致性。

05 訓練數據的獨特選擇

與傳統模型主要采用靜態圖像作為訓練數據不同，Etna模型采用的是視頻數據，這種方法更符合其生成目標的本質。通過優化的patch處理方法，Etna模型在訓練過程中能更有效地理解和模擬動態場景，從而提升最終視頻的自然度和真實感。

Etna模型生成的視頻

國內視頻生成領域方興未艾，我們相信，Etna文生視頻模型將以更為卓越的效能和創造力，有力滿足合作伙伴在視頻生成領域日益增長的需求，同時也將進一步推動公司AI業務發展，與公司自主研發的AI功能集成app“靈犀妙筆AI”共同開啟AI多模態應用新篇章。

部分內容來源于七火山公眾號：7Volcanoes七火山

七火山官網：https://7volcanoes.com/

咨詢熱線	+86 020-80660188
官方微信

新聞中心