快手可靈團隊MIDAS:壓縮比64倍、延遲低于500ms,交互生成新突破
數(shù)字人視頻生成技術正迅速成為增強人機交互體驗的核心手段之一。然而,團隊突破現(xiàn)有方法在實現(xiàn)低延遲、壓于多模態(tài)控制與長時序一致性方面仍存在顯著挑戰(zhàn)??s比大多數(shù)系統(tǒng)要么計算開銷巨大,倍延無法實時響應,遲低成新要么只能處理單一模態(tài)輸入,互生缺乏真正的快手可靈交互能力。
為了解決這些問題,團隊突破快手可靈團隊(Kling Team)提出了一種名為 MIDAS(Multimodal Interactive Digital-human Synthesis)的壓于新型框架,通過自回歸視頻生成結合輕量化擴散去噪頭,縮比實現(xiàn)了多模態(tài)條件下實時、倍延流暢的遲低成新數(shù)字人視頻合成。該系統(tǒng)具備三大核心優(yōu)勢:
- 64× 高壓縮比自編碼器,互生將每幀壓縮至最多 60 個 token,快手可靈大幅降低計算負荷;
- 低于 500ms 端到端生成延遲,支持實時流式交互;
- 4 步擴散去噪,在效率與視覺質(zhì)量間取得最佳平衡。
該項研究已被廣泛實驗驗證,在多語言對話、歌唱合成甚至交互式世界建模等任務中表現(xiàn)出色,為數(shù)字人實時交互提供了全新解決方案。
- 論文標題:MIDAS: Multimodal Interactive Digital-humAn Synthesis via Real-time Autoregressive Video Generation
- 論文地址:https://arxiv.org/pdf/2508.19320
- 主頁地址:https://chenmingthu.github.io/milm/
核心創(chuàng)新
1. 多模態(tài)指令控制機制
MIDAS 支持從音頻、姿態(tài)到文本等多種輸入信號。通過一個統(tǒng)一的多模態(tài)條件投影器,將不同模態(tài)編碼到共享潛在空間,形成全局指令令牌,構建 frame-by-frame 的 chunk 注入,引導自回歸模型生成語義和空間一致的數(shù)字人動作與表情。
2. 因果潛在預測 + 擴散渲染
模型可嵌套任意類似大語言模型的自回歸架構,逐幀預測潛在表示,再由一個輕量級擴散頭進行去噪和高清渲染。這種設計既保證了生成的連貫性,也大幅降低了計算延遲,適合實時流式生成。
3. 高壓縮率自編碼器(DC-AE)
為實現(xiàn)高效的自回歸建模,團隊設計了壓縮比高達 64 倍的 DC-AE,將每幀圖像表示為最多 60 個令牌,支持分辨率最高達 384×640 的圖像重建,并引入因果時序卷積與 RoPE 注意力機制保障時序一致性。
4. 大規(guī)模多模態(tài)對話數(shù)據(jù)集
為訓練模型,研究者構建了一個約 2 萬小時的大規(guī)模對話數(shù)據(jù)集,涵蓋單人、雙人對話場景,涵蓋多語言、多風格內(nèi)容,為模型提供了豐富的語境與交互樣本。
方法概要
- 模型架構:采用 Qwen2.5-3B 作為自回歸主干網(wǎng)絡,擴散頭基于 PixArt-α /mlp 結構。
- 訓練策略:引入可控噪聲注入,通過 20 級噪聲桶和對應嵌入,緩解自回歸模型在推理階段的曝光偏差問題。
- 推理機制:支持分塊流式生成,每塊 6 幀,可實現(xiàn) 480ms 級別的低延遲響應。
效果展示
1. 雙人對話生成
系統(tǒng)可實時處理雙人對話音頻流,生成與語音同步的口型、表情和傾聽姿態(tài),支持自然輪流對話:
雙工對話示例
2. 跨語言歌唱合成
在沒有顯式語言標識的情況下,模型精準實現(xiàn)中文、日文、英文歌曲的唇形同步,生成視頻可達 4 分鐘無顯著漂移:
多語言歌唱合成效果
3. 通用交互世界模型
通過在 Minecraft 數(shù)據(jù)集上訓練,MIDAS 可響應方向控制信號,展現(xiàn)出良好的場景一致性與記憶能力,驗證了其作為交互式世界模型的潛力:
Minecraft 環(huán)境下的交互生成示例
總結
MIDAS 在雙邊對話、多語言生成等任務中,MIDAS 均實現(xiàn)實時生成(<500ms 延遲), 并且擴散頭僅需 4 步去噪,在效率與質(zhì)量間取得最佳平衡,支持長達幾分鐘的連續(xù)生成,且質(zhì)量衰減顯著低于基線方法。
MIDAS 不僅為實時數(shù)字人生成提供了端到端的解決方案,更探索了多模態(tài)自回歸模型在交互式媒體生成中的潛力。其模塊化設計允許靈活擴展至更多模態(tài)與控制信號,為虛擬人直播、元宇宙交互、多模態(tài) AI 智能體等應用奠定了技術基礎。
團隊表示,未來將進一步探索更高分辨率、更復雜交互邏輯下的生成能力,并推進系統(tǒng)在真實產(chǎn)品環(huán)境中的部署。
文中視頻鏈接:https://mp.weixin.qq.com/s/2pfS1zGF8OBeVtjtmosnYw