在實時數(shù)字人技術持續(xù)演進的背景下,Soul App近期完成了一次技術突破。圍繞“高畫質(zhì)與低成本難以兼得”的行業(yè)難題,Soul張璐團隊在此前開源實時數(shù)字人模型 SoulX-FlashTalk 的基礎上,推出了輕量化、可復用的實時數(shù)字人生成模型 SoulX-FlashHead。
該模型參數(shù)規(guī)模為1.3B,卻能夠在單張RTX 4090顯卡上實現(xiàn) 96FPS 的推理速度,并在畫面穩(wěn)定性與唇形一致性上達到工業(yè)級水準。在消費級顯卡環(huán)境中, SoulX-FlashHead實現(xiàn)了高幀率與穩(wěn)定畫質(zhì)的兼顧,為實時數(shù)字人應用提供了新的技術路徑。

在模型設計層面,SoulX-FlashHead通過訓練機制與時序建模的創(chuàng)新,實現(xiàn)“以小博大”。引入的雙向蒸餾機制(Oracle-Guided Distillation)為模型提供了更強的身份約束。在長視頻生成中,人物特征隨時間漂移一直是行業(yè)公認難點。該機制通過“教師模型”以 Ground Truth作為錨點進行引導,使生成結果在長時序下保持一致性,顯著降低身份偏移風險。
針對實時流式生成中常見的口型抖動問題,SoulX-FlashHead還引入了“時序音頻上下文緩存”(TACC)策略。模型在推理過程中強制保留8秒歷史音頻特征,用于補償短音頻切片帶來的上下文不足。該設計使模型在開播初期即可進入穩(wěn)定狀態(tài),減少了口型錯位與節(jié)奏不連貫的情況,提升了整體觀感。
數(shù)據(jù)質(zhì)量同樣是模型表現(xiàn)的重要基礎。Soul構建了自研的 VividHead數(shù)據(jù)集,從超過10,000小時素材中篩選出782小時高質(zhì)量音畫數(shù)據(jù),并通過多輪處理流程進行凈化,包括切分、DWpose 關鍵點提取以及唇形一致性評分過濾等步驟,為模型訓練提供了更可靠的數(shù)據(jù)底座。

在實際性能表現(xiàn)上,SoulX-FlashHead的Lite 版本在單張 RTX 4090上可達到96FPS的推理幀率,僅占用約6.4G顯存,并支持最高3路并發(fā),顯著降低了實時數(shù)字人的部署門檻。Pro版本在單張RTX 5090上可實現(xiàn)16.8FPS。在HDTF與VFHQ兩個權威數(shù)據(jù)集的測試中,SoulX-FlashHead的表現(xiàn)進一步驗證了其技術路線的有效性。在高清視頻場景下,Pro版本在FID與FVD等指標上刷新了現(xiàn)有成績,畫面細節(jié)與穩(wěn)定性優(yōu)于部分高參數(shù)量模型;在復雜真實場景中,其唇形同步指標Sync-C達到5.60,體現(xiàn)了時序音頻建模策略的實際價值。就效率而言,Lite版本在單卡RTX 4090上實現(xiàn)的96FPS 吞吐量,不僅明顯高于實時基準,也體現(xiàn)出輕量化模型在工程部署中的優(yōu)勢。

對比今年1月開源的 SoulX-FlashTalk,SoulX-FlashHead實現(xiàn)了場景突破。前者以0.87s亞秒級超低延時、32FPS高幀率與支持超長視頻穩(wěn)定生成,驗證了實時數(shù)字人的可行性。后者則進一步將高保真能力下沉到個人工作站,使相關技術從集中算力環(huán)境走向更廣泛的使用場景。
目前,SoulX-FlashHead已在多類應用設想中展現(xiàn)出適配性。例如:個人主播可在一臺游戲PC上搭建7×24小時的矩陣直播;游戲場景中,模型體量更易集成,可實現(xiàn)NPC毫秒級響應而不占用核心渲染資源;在一對一教學場景下,模型支持多語言音頻驅(qū)動,增強了實時互動的表現(xiàn)力。
在保持畫面穩(wěn)定與交互自然的前提下,Soul張璐團隊通過開源SoulX-FlashHead將高保真數(shù)字人能力引入消費級硬件環(huán)境,展示了實時數(shù)字人在“算力可及性”與“體驗質(zhì)量”之間取得平衡的可能性,也為實時數(shù)字人技術的實際落地提供了新的參考樣本。

