行業(yè)主要上市公司:阿里巴巴 ( 09988.HK,BABA.US ) ; 百度 ( 09888.HK,BIDU.US ) ; 騰訊 ( 00700.HK, TCEHY ) ;科大訊飛 ( 002230.SZ ) ;萬興科技 ( 300624.SZ ) ;三六零 ( 601360.SH ) ;昆侖萬維 ( 300418.SZ ) ; 云從科技 ( 688327.SH ) ;拓爾思 ( 300229.SZ ) 等
多模態(tài)大模型的模型路徑
多模態(tài)大模型的探索正在逐步取得進展,近年來產(chǎn)業(yè)聚焦在視覺等重點模態(tài)領(lǐng)域突破。理想中的 "Any-to-Any" 大模型,Google Gemini、Codi-2 等均是處于探索階段的方案,其最終技術(shù)方案的成熟還需要在各個模態(tài)領(lǐng)域的路線跑通,實現(xiàn)多模態(tài)知識學習,跨模態(tài)信息對齊共享,進而實現(xiàn)理想中多模態(tài)大模型。現(xiàn)階段產(chǎn)業(yè)主要的工作還是聚焦在視覺等典型的重點模態(tài),試圖將 Transformer 大模型架構(gòu)進一步在圖像、視頻、3D 模型等模態(tài)領(lǐng)域引入使用,完善各個模態(tài)領(lǐng)域的感知和生成模型,再進一步實現(xiàn)更多模態(tài)之間的跨模態(tài)打通和融合。
多模態(tài)大模型的圖像模型
早在 2023 年 LLM 的流行之前,過去產(chǎn)業(yè)界在對于圖像的理解和生成模型領(lǐng)域已經(jīng)打下了堅實的基礎(chǔ),其中也產(chǎn)生了 CLIP、Stable Diffusion、GAN 等典型的模型成果,孕育出了 Midjourney、DALL · E 等成熟的文生圖應用。而更進一步,產(chǎn)業(yè)界也在積極探索將 Transformer 大模型引入圖像相關(guān)任務領(lǐng)域 ( ViT,Vision Transformer;DiT,Diffusion Transformer ) ,探索統(tǒng)一視覺大模型的建立,以及將 LLM 大語言模型與視覺模型進行更加密切的融合,包括近年來的 GLIP、SAM、GPT-V 都是其中的重點成果。
注:利用真實文本描述,通過 CLIP 生成的圖像特征
多模態(tài)大模型的視頻模型
由于視頻本質(zhì)上是由很多幀的圖像疊加而成,因此本質(zhì)上語言與視頻模態(tài)的融合和語言和圖像具有相當多的互通之處,產(chǎn)業(yè)界也在嘗試將圖像生成模型遷移到視頻生成,先基于圖像數(shù)據(jù)進行訓練,再結(jié)合時間維度上的對齊,最終實現(xiàn)文生視頻的效果。其中近年來也產(chǎn)生了 VideoLDM、W.A.L.T. 等典型的成果,并在近期也出現(xiàn)了 Sora 這樣具有明顯突破性效果的模型,其在視頻生成領(lǐng)域沿用了 Diffusion Transformer 架構(gòu),并在視頻類場景首次呈現(xiàn)出 " 智能涌現(xiàn) " 的跡象。
視頻本質(zhì)上是一系列圖像的連續(xù)展示,圖片生成是視頻生成的基礎(chǔ)。圖片生成的主流技術(shù)即擴散模型同樣也是視頻生成的主流技術(shù),目前主流的文生視頻模型的技術(shù)路線為基于文生圖模型,通過在時間維度加入卷積或注意力,在生成的關(guān)鍵幀基礎(chǔ)上實現(xiàn)時序?qū)R得到視頻。在此基礎(chǔ)上,插幀 + 超分、初始噪聲對齊、基于 LLM 增強描述等方法均有助于增強時序?qū)R能力,實現(xiàn)更高質(zhì)量的視頻生成。Zero-shot 領(lǐng)域的一系列研究則能夠?qū)崿F(xiàn)無需訓練,直接將圖片生成模型轉(zhuǎn)化為視頻生成模型。
多模態(tài)大模型的 3D 模型
實際上 3D 是由 2D+ 空間信息構(gòu)成,因此類似于由圖像生成到視頻生成的延伸,2D 圖片的生成方法理論上也可以遷移到 3D 中。近年來產(chǎn)業(yè)界也在積極探索將圖像領(lǐng)域的 GAN、自回歸、Diffusion、VAE 等骨干模型在 3D 模型生成任務中的擴展,其中也產(chǎn)生了 3D GAN、MeshDiffusion、Instant3D 等重點的模型成果。但相比圖像和視頻生成,目前的 3D 模型生成技術(shù)還處于早期發(fā)展階段,相關(guān)模型的成熟度仍有較大提升空間。
3D 數(shù)據(jù)表征:包括網(wǎng)格 ( Mesh ) 、點云 ( Point clouds ) 等顯式表示,以及 NeRF ( Neural radiance fields,神經(jīng)輻射場 ) 等隱式表示,還包括體素 ( Voxel grids,3D 空間中的像素 ) 這類混合表示,其中 NeRF 具有強大的三維表達能力和潛在的廣泛應用范圍,是 3D 數(shù)據(jù)表征的關(guān)鍵技術(shù) ;
3D 數(shù)據(jù)集:包括 3D 數(shù)據(jù) ( 數(shù)據(jù)量和精度有限 ) 、多視角圖片 ( 用途最為廣泛 ) 、單張圖片 ( 使用仍具有較大難度 ) 等。目前 3D 對象數(shù)據(jù)集仍然稀缺,代表性的數(shù)據(jù)集包括 ShapeNet ( Chang 等,2015 ) 構(gòu)建了 5.1 萬個 3D CAD 模型,為 3D 數(shù)據(jù)集的充實做出開創(chuàng)貢獻 ;Deitke 等 ( 2023 ) 構(gòu)建了 Objaverse 和 Objaverse-xl 數(shù)據(jù)集,分別有 80 萬和 1000 萬個 3D 對象 ;
3D 生成模型:前饋生成 ( 通過前向傳遞中直接生成結(jié)果 ) 、基于優(yōu)化的生成 ( 每次生成需要迭代優(yōu)化 ) 、程序生成 ( 根據(jù)規(guī)則創(chuàng)建 3D 模型 ) 、生成式新視圖合成 ( 生成多視角圖像 ) ;
3D 應用:包括 3D 人生成、3D 人臉生成、3D 物體生成、3D 場景生成等應用。
多模態(tài)大模型的音頻模型
語音相關(guān)的 AI 技術(shù)在過去多年中已經(jīng)較為成熟,但近年來 Transformer 大模型在 AI 音頻領(lǐng)域的投入應用,還是成功推動了相關(guān)技術(shù)再上臺階,實現(xiàn)更優(yōu)的音頻理解和生成效果,其中重點的項目成果包括 Whisper large-v3、VALL-E 等。語音技術(shù)沿革可分為三階段,深度學習驅(qū)動發(fā)展加速。語音技術(shù)主要向增強泛化能力的方向持續(xù)延伸,Transformer 架構(gòu)引領(lǐng)語音技術(shù)迭代浪潮。泛化能力是指模型對于未經(jīng)訓練的數(shù)據(jù)的適應能力,技術(shù)基礎(chǔ)來自具有強大學習能力的網(wǎng)絡架構(gòu)和大量多樣化的數(shù)據(jù)訓練。語音模型泛化能力的增強主要體現(xiàn)在:從覆蓋單一語種到多語種和方言,從處理人聲到自然聲音、音樂,從簡單語音識別或合成到零樣本學習和多任務集成。
Omni 模型是利用 neural audio codec,主要是對音頻進行編碼以實現(xiàn)音頻合成。文本和聲波會先分別進入 embedding 和 adapter 進行編碼,再通過 Omni 模型進行合成和預測音頻的 token,最后通過擴散模型進行訓練,量化再用解碼器合成音頻。
來源:前瞻網(wǎng)