精品国产第一福利网站,麻豆免费版,国语熟妇乱人乱A片久久,又黄又爽又色视频

2025 年中國(guó)多模態(tài)大模型行業(yè)模型現(xiàn)狀 圖像、視頻、音頻、3D 模型等終將打通和融合

創(chuàng)投圈
2025
06/03
18:00
分享
評(píng)論

行業(yè)主要上市公司:阿里巴巴 ( 09988.HK,BABA.US ) ; 百度 ( 09888.HK,BIDU.US ) ; 騰訊 ( 00700.HK, TCEHY ) ;科大訊飛 ( 002230.SZ ) ;萬(wàn)興科技 ( 300624.SZ ) ;三六零 ( 601360.SH ) ;昆侖萬(wàn)維 ( 300418.SZ ) ; 云從科技 ( 688327.SH ) ;拓爾思 ( 300229.SZ ) 等

多模態(tài)大模型的模型路徑

多模態(tài)大模型的探索正在逐步取得進(jìn)展,近年來(lái)產(chǎn)業(yè)聚焦在視覺(jué)等重點(diǎn)模態(tài)領(lǐng)域突破。理想中的 "Any-to-Any" 大模型,Google Gemini、Codi-2 等均是處于探索階段的方案,其最終技術(shù)方案的成熟還需要在各個(gè)模態(tài)領(lǐng)域的路線跑通,實(shí)現(xiàn)多模態(tài)知識(shí)學(xué)習(xí),跨模態(tài)信息對(duì)齊共享,進(jìn)而實(shí)現(xiàn)理想中多模態(tài)大模型?,F(xiàn)階段產(chǎn)業(yè)主要的工作還是聚焦在視覺(jué)等典型的重點(diǎn)模態(tài),試圖將 Transformer 大模型架構(gòu)進(jìn)一步在圖像、視頻、3D 模型等模態(tài)領(lǐng)域引入使用,完善各個(gè)模態(tài)領(lǐng)域的感知和生成模型,再進(jìn)一步實(shí)現(xiàn)更多模態(tài)之間的跨模態(tài)打通和融合。

多模態(tài)大模型的圖像模型

早在 2023 年 LLM 的流行之前,過(guò)去產(chǎn)業(yè)界在對(duì)于圖像的理解和生成模型領(lǐng)域已經(jīng)打下了堅(jiān)實(shí)的基礎(chǔ),其中也產(chǎn)生了 CLIP、Stable Diffusion、GAN 等典型的模型成果,孕育出了 Midjourney、DALL · E 等成熟的文生圖應(yīng)用。而更進(jìn)一步,產(chǎn)業(yè)界也在積極探索將 Transformer 大模型引入圖像相關(guān)任務(wù)領(lǐng)域 ( ViT,Vision Transformer;DiT,Diffusion Transformer ) ,探索統(tǒng)一視覺(jué)大模型的建立,以及將 LLM 大語(yǔ)言模型與視覺(jué)模型進(jìn)行更加密切的融合,包括近年來(lái)的 GLIP、SAM、GPT-V 都是其中的重點(diǎn)成果。

注:利用真實(shí)文本描述,通過(guò) CLIP 生成的圖像特征

多模態(tài)大模型的視頻模型

由于視頻本質(zhì)上是由很多幀的圖像疊加而成,因此本質(zhì)上語(yǔ)言與視頻模態(tài)的融合和語(yǔ)言和圖像具有相當(dāng)多的互通之處,產(chǎn)業(yè)界也在嘗試將圖像生成模型遷移到視頻生成,先基于圖像數(shù)據(jù)進(jìn)行訓(xùn)練,再結(jié)合時(shí)間維度上的對(duì)齊,最終實(shí)現(xiàn)文生視頻的效果。其中近年來(lái)也產(chǎn)生了 VideoLDM、W.A.L.T. 等典型的成果,并在近期也出現(xiàn)了 Sora 這樣具有明顯突破性效果的模型,其在視頻生成領(lǐng)域沿用了 Diffusion Transformer 架構(gòu),并在視頻類場(chǎng)景首次呈現(xiàn)出 " 智能涌現(xiàn) " 的跡象。

視頻本質(zhì)上是一系列圖像的連續(xù)展示,圖片生成是視頻生成的基礎(chǔ)。圖片生成的主流技術(shù)即擴(kuò)散模型同樣也是視頻生成的主流技術(shù),目前主流的文生視頻模型的技術(shù)路線為基于文生圖模型,通過(guò)在時(shí)間維度加入卷積或注意力,在生成的關(guān)鍵幀基礎(chǔ)上實(shí)現(xiàn)時(shí)序?qū)R得到視頻。在此基礎(chǔ)上,插幀 + 超分、初始噪聲對(duì)齊、基于 LLM 增強(qiáng)描述等方法均有助于增強(qiáng)時(shí)序?qū)R能力,實(shí)現(xiàn)更高質(zhì)量的視頻生成。Zero-shot 領(lǐng)域的一系列研究則能夠?qū)崿F(xiàn)無(wú)需訓(xùn)練,直接將圖片生成模型轉(zhuǎn)化為視頻生成模型。

多模態(tài)大模型的 3D 模型

實(shí)際上 3D 是由 2D+ 空間信息構(gòu)成,因此類似于由圖像生成到視頻生成的延伸,2D 圖片的生成方法理論上也可以遷移到 3D 中。近年來(lái)產(chǎn)業(yè)界也在積極探索將圖像領(lǐng)域的 GAN、自回歸、Diffusion、VAE 等骨干模型在 3D 模型生成任務(wù)中的擴(kuò)展,其中也產(chǎn)生了 3D GAN、MeshDiffusion、Instant3D 等重點(diǎn)的模型成果。但相比圖像和視頻生成,目前的 3D 模型生成技術(shù)還處于早期發(fā)展階段,相關(guān)模型的成熟度仍有較大提升空間。

3D 數(shù)據(jù)表征:包括網(wǎng)格 ( Mesh ) 、點(diǎn)云 ( Point clouds ) 等顯式表示,以及 NeRF ( Neural radiance fields,神經(jīng)輻射場(chǎng) ) 等隱式表示,還包括體素 ( Voxel grids,3D 空間中的像素 ) 這類混合表示,其中 NeRF 具有強(qiáng)大的三維表達(dá)能力和潛在的廣泛應(yīng)用范圍,是 3D 數(shù)據(jù)表征的關(guān)鍵技術(shù) ;

3D 數(shù)據(jù)集:包括 3D 數(shù)據(jù) ( 數(shù)據(jù)量和精度有限 ) 、多視角圖片 ( 用途最為廣泛 ) 、單張圖片 ( 使用仍具有較大難度 ) 等。目前 3D 對(duì)象數(shù)據(jù)集仍然稀缺,代表性的數(shù)據(jù)集包括 ShapeNet ( Chang 等,2015 ) 構(gòu)建了 5.1 萬(wàn)個(gè) 3D CAD 模型,為 3D 數(shù)據(jù)集的充實(shí)做出開(kāi)創(chuàng)貢獻(xiàn) ;Deitke 等 ( 2023 ) 構(gòu)建了 Objaverse 和 Objaverse-xl 數(shù)據(jù)集,分別有 80 萬(wàn)和 1000 萬(wàn)個(gè) 3D 對(duì)象 ;

3D 生成模型:前饋生成 ( 通過(guò)前向傳遞中直接生成結(jié)果 ) 、基于優(yōu)化的生成 ( 每次生成需要迭代優(yōu)化 ) 、程序生成 ( 根據(jù)規(guī)則創(chuàng)建 3D 模型 ) 、生成式新視圖合成 ( 生成多視角圖像 ) ;

3D 應(yīng)用:包括 3D 人生成、3D 人臉生成、3D 物體生成、3D 場(chǎng)景生成等應(yīng)用。

多模態(tài)大模型的音頻模型

語(yǔ)音相關(guān)的 AI 技術(shù)在過(guò)去多年中已經(jīng)較為成熟,但近年來(lái) Transformer 大模型在 AI 音頻領(lǐng)域的投入應(yīng)用,還是成功推動(dòng)了相關(guān)技術(shù)再上臺(tái)階,實(shí)現(xiàn)更優(yōu)的音頻理解和生成效果,其中重點(diǎn)的項(xiàng)目成果包括 Whisper large-v3、VALL-E 等。語(yǔ)音技術(shù)沿革可分為三階段,深度學(xué)習(xí)驅(qū)動(dòng)發(fā)展加速。語(yǔ)音技術(shù)主要向增強(qiáng)泛化能力的方向持續(xù)延伸,Transformer 架構(gòu)引領(lǐng)語(yǔ)音技術(shù)迭代浪潮。泛化能力是指模型對(duì)于未經(jīng)訓(xùn)練的數(shù)據(jù)的適應(yīng)能力,技術(shù)基礎(chǔ)來(lái)自具有強(qiáng)大學(xué)習(xí)能力的網(wǎng)絡(luò)架構(gòu)和大量多樣化的數(shù)據(jù)訓(xùn)練。語(yǔ)音模型泛化能力的增強(qiáng)主要體現(xiàn)在:從覆蓋單一語(yǔ)種到多語(yǔ)種和方言,從處理人聲到自然聲音、音樂(lè),從簡(jiǎn)單語(yǔ)音識(shí)別或合成到零樣本學(xué)習(xí)和多任務(wù)集成。

Omni 模型是利用 neural audio codec,主要是對(duì)音頻進(jìn)行編碼以實(shí)現(xiàn)音頻合成。文本和聲波會(huì)先分別進(jìn)入 embedding 和 adapter 進(jìn)行編碼,再通過(guò) Omni 模型進(jìn)行合成和預(yù)測(cè)音頻的 token,最后通過(guò)擴(kuò)散模型進(jìn)行訓(xùn)練,量化再用解碼器合成音頻。

來(lái)源:前瞻網(wǎng)

THE END
廣告、內(nèi)容合作請(qǐng)點(diǎn)擊這里 尋求合作
免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表砍柴網(wǎng)的觀點(diǎn)和立場(chǎng)。

相關(guān)熱點(diǎn)

相關(guān)推薦

1
3