<form id="dhnpx"></form>

          行業動態丨AI多模態應用持續發酵,競逐文生視頻模型藍海
          發布時間:2024-03-16 14:32:21 瀏覽次數:2030


          在全球AI視頻技術熱潮持續沸騰的背景下,據了解,愛詩科技近日獲得了電廣傳媒旗下達晨財智億級A1輪融資領投,資金將主要用于底層視頻大模型的技術研發及團隊搭建等方面。這進一步印證了業界對AI視頻技術的熱烈追捧。

          Sora的橫空出世,激發了全球科技公司競相角逐AI視頻革新賽道。各家企業猶如八仙過海,各顯神通,如Stability AI上線公測SVD視頻平臺、七火山發布了文生視頻模型Etna、Pika上線了新功能——可以給視頻對口型的Lip Sync和根據內容自動生成聲音的音效生成功能、LTX Studio上線視頻AI制作平臺、Meta發布AI自動剪輯視頻工具。

          作為人工智能領域的積極探索者,超訊通信從去年就開始部署AI生態,已完成“算力-數據-AI”新業務布局。今年年初,公司敏銳洞察到AI視頻的市場潛力,與AI多模態應用公司Hong Kong Inequation Limited簽署了相關投資協議,成為該公司占股30%的第一大股東。

          Etna文生視頻模型是由Hong Kong Inequation Limited業務品牌七火山研發,在設計和開發上采取了一系列革命性的技術突破,這些突破不僅提升了視頻內容的質量,還極大地增強了模型的應用潛力。其主要創新點包括:

          圖片

          01 視頻幀率高達4K

          Etna模型支持生成視頻時長達到8-15秒,且視頻流暢度極高,每秒可達60幀。這一特性使得Etna生成的視頻不僅內容豐富,而且視覺效果流暢自然,極大提升了用戶觀看體驗。


          圖片

          02 深度語義理解能力

          Etna模型背后的技術架構,特別強調了對輸入文本的深度理解。借鑒了sora模型的成功經驗,Etna能夠更準確地捕捉和轉化文本信息為視頻內容,使得生成的視頻不僅忠實于原文意圖,還能豐富展現文本的細微情感和場景。


          圖片

          03 高清晰度與豐富細節

          與早期的視頻生成模型相比,Etna在視頻清晰度和圖像細節方面取得了顯著進步。這意味著Etna能夠產生高質量的視頻內容,每個場景的細節都被精細呈現,為觀眾帶來身臨其境的視覺享受。


          圖片

          04 技術架構的創新

          Etna模型融合了diffusion模型和transformer模型的優勢,通過這種結合,形成了一種高效且先進的新型模型架構。這不僅提升了模型的生成效率,還保證了生成內容的高質量和高一致性。


          圖片

          05 訓練數據的獨特選擇

          與傳統模型主要采用靜態圖像作為訓練數據不同,Etna模型采用的是視頻數據,這種方法更符合其生成目標的本質。通過優化的patch處理方法,Etna模型在訓練過程中能更有效地理解和模擬動態場景,從而提升最終視頻的自然度和真實感。


          Etna模型生成的視頻

          國內視頻生成領域方興未艾,我們相信,Etna文生視頻模型將以更為卓越的效能和創造力,有力滿足合作伙伴在視頻生成領域日益增長的需求,同時也將進一步推動公司AI業務發展,與公司自主研發的AI功能集成app“靈犀妙筆AI”共同開啟AI多模態應用新篇章。

          部分內容來源于七火山公眾號:7Volcanoes七火山

          七火山官網:https://7volcanoes.com/


          天天躁日日躁狠狠躁综合