快手可靈團(tuán)隊(duì)MIDAS:壓縮比64倍、延遲低于500ms,交互生成新突破
數(shù)字人視頻生成技術(shù)正迅速成為增強(qiáng)人機(jī)交互體驗(yàn)的核心手段之一。然而,團(tuán)隊(duì)突破現(xiàn)有方法在實(shí)現(xiàn)低延遲、壓于多模態(tài)控制與長(zhǎng)時(shí)序一致性方面仍存在顯著挑戰(zhàn)。縮比大多數(shù)系統(tǒng)要么計(jì)算開銷巨大,倍延無法實(shí)時(shí)響應(yīng),遲低成新要么只能處理單一模態(tài)輸入,互生缺乏真正的快手可靈交互能力。
為了解決這些問題,團(tuán)隊(duì)突破快手可靈團(tuán)隊(duì)(Kling Team)提出了一種名為 MIDAS(Multimodal Interactive Digital-human Synthesis)的壓于新型框架,通過自回歸視頻生成結(jié)合輕量化擴(kuò)散去噪頭,縮比實(shí)現(xiàn)了多模態(tài)條件下實(shí)時(shí)、倍延流暢的遲低成新數(shù)字人視頻合成。該系統(tǒng)具備三大核心優(yōu)勢(shì):
- 64× 高壓縮比自編碼器,互生將每幀壓縮至最多 60 個(gè) token,快手可靈大幅降低計(jì)算負(fù)荷;
- 低于 500ms 端到端生成延遲,支持實(shí)時(shí)流式交互;
- 4 步擴(kuò)散去噪,在效率與視覺質(zhì)量間取得最佳平衡。
該項(xiàng)研究已被廣泛實(shí)驗(yàn)驗(yàn)證,在多語言對(duì)話、歌唱合成甚至交互式世界建模等任務(wù)中表現(xiàn)出色,為數(shù)字人實(shí)時(shí)交互提供了全新解決方案。
- 論文標(biāo)題:MIDAS: Multimodal Interactive Digital-humAn Synthesis via Real-time Autoregressive Video Generation
- 論文地址:https://arxiv.org/pdf/2508.19320
- 主頁(yè)地址:https://chenmingthu.github.io/milm/
核心創(chuàng)新
1. 多模態(tài)指令控制機(jī)制
MIDAS 支持從音頻、姿態(tài)到文本等多種輸入信號(hào)。通過一個(gè)統(tǒng)一的多模態(tài)條件投影器,將不同模態(tài)編碼到共享潛在空間,形成全局指令令牌,構(gòu)建 frame-by-frame 的 chunk 注入,引導(dǎo)自回歸模型生成語義和空間一致的數(shù)字人動(dòng)作與表情。
2. 因果潛在預(yù)測(cè) + 擴(kuò)散渲染
模型可嵌套任意類似大語言模型的自回歸架構(gòu),逐幀預(yù)測(cè)潛在表示,再由一個(gè)輕量級(jí)擴(kuò)散頭進(jìn)行去噪和高清渲染。這種設(shè)計(jì)既保證了生成的連貫性,也大幅降低了計(jì)算延遲,適合實(shí)時(shí)流式生成。
3. 高壓縮率自編碼器(DC-AE)
為實(shí)現(xiàn)高效的自回歸建模,團(tuán)隊(duì)設(shè)計(jì)了壓縮比高達(dá) 64 倍的 DC-AE,將每幀圖像表示為最多 60 個(gè)令牌,支持分辨率最高達(dá) 384×640 的圖像重建,并引入因果時(shí)序卷積與 RoPE 注意力機(jī)制保障時(shí)序一致性。
4. 大規(guī)模多模態(tài)對(duì)話數(shù)據(jù)集
為訓(xùn)練模型,研究者構(gòu)建了一個(gè)約 2 萬小時(shí)的大規(guī)模對(duì)話數(shù)據(jù)集,涵蓋單人、雙人對(duì)話場(chǎng)景,涵蓋多語言、多風(fēng)格內(nèi)容,為模型提供了豐富的語境與交互樣本。
方法概要
- 模型架構(gòu):采用 Qwen2.5-3B 作為自回歸主干網(wǎng)絡(luò),擴(kuò)散頭基于 PixArt-α /mlp 結(jié)構(gòu)。
- 訓(xùn)練策略:引入可控噪聲注入,通過 20 級(jí)噪聲桶和對(duì)應(yīng)嵌入,緩解自回歸模型在推理階段的曝光偏差問題。
- 推理機(jī)制:支持分塊流式生成,每塊 6 幀,可實(shí)現(xiàn) 480ms 級(jí)別的低延遲響應(yīng)。
效果展示
1. 雙人對(duì)話生成
系統(tǒng)可實(shí)時(shí)處理雙人對(duì)話音頻流,生成與語音同步的口型、表情和傾聽姿態(tài),支持自然輪流對(duì)話:
雙工對(duì)話示例
2. 跨語言歌唱合成
在沒有顯式語言標(biāo)識(shí)的情況下,模型精準(zhǔn)實(shí)現(xiàn)中文、日文、英文歌曲的唇形同步,生成視頻可達(dá) 4 分鐘無顯著漂移:
多語言歌唱合成效果
3. 通用交互世界模型
通過在 Minecraft 數(shù)據(jù)集上訓(xùn)練,MIDAS 可響應(yīng)方向控制信號(hào),展現(xiàn)出良好的場(chǎng)景一致性與記憶能力,驗(yàn)證了其作為交互式世界模型的潛力:
Minecraft 環(huán)境下的交互生成示例
總結(jié)
MIDAS 在雙邊對(duì)話、多語言生成等任務(wù)中,MIDAS 均實(shí)現(xiàn)實(shí)時(shí)生成(<500ms 延遲), 并且擴(kuò)散頭僅需 4 步去噪,在效率與質(zhì)量間取得最佳平衡,支持長(zhǎng)達(dá)幾分鐘的連續(xù)生成,且質(zhì)量衰減顯著低于基線方法。
MIDAS 不僅為實(shí)時(shí)數(shù)字人生成提供了端到端的解決方案,更探索了多模態(tài)自回歸模型在交互式媒體生成中的潛力。其模塊化設(shè)計(jì)允許靈活擴(kuò)展至更多模態(tài)與控制信號(hào),為虛擬人直播、元宇宙交互、多模態(tài) AI 智能體等應(yīng)用奠定了技術(shù)基礎(chǔ)。
團(tuán)隊(duì)表示,未來將進(jìn)一步探索更高分辨率、更復(fù)雜交互邏輯下的生成能力,并推進(jìn)系統(tǒng)在真實(shí)產(chǎn)品環(huán)境中的部署。
文中視頻鏈接:https://mp.weixin.qq.com/s/2pfS1zGF8OBeVtjtmosnYw