123,123

小米开源人车家生态战略关键技术组件

日期： 2025-08-05

來源：快科技

關(guān)鍵詞： 小米大模型

8月4日消息，小米正式發(fā)布并開源聲音理解大模型MiDashengLM-7B，該模型是小米“人車家全生態(tài)”戰(zhàn)略的關(guān)鍵技術(shù)組件。

MiDashengLM通過統(tǒng)一理解語音、環(huán)境聲與音樂的跨領(lǐng)域能力，不僅能聽懂用戶周圍發(fā)生了什么事情，還能分析發(fā)現(xiàn)這些事情的隱藏含義，提高用戶場景理解的泛化性。

基于MiDashengLM的模型通過自然語言和用戶交互，為用戶提更人性化的溝通和反饋，比如在用戶練習(xí)唱歌或練習(xí)外語時提供發(fā)音反饋并制定針對性提升方案，又比如在用戶駕駛車輛時實(shí)時對用戶關(guān)于環(huán)境聲音的提問做出解答，其應(yīng)用場景有廣闊的空間。

結(jié)合高效的推理部署性能，MiDashengLM將廣泛賦能智能座艙、智能家居等場景，推動多模態(tài)交互體驗(yàn)升級。

基于Xiaomi Dasheng音頻編碼器和Qwen2.5-Omni-7B Thinker自回歸解碼器構(gòu)建，通過通用音頻描述訓(xùn)練策略，實(shí)現(xiàn)對語音、環(huán)境聲音和音樂的統(tǒng)一理解。

訓(xùn)練數(shù)據(jù)100%來自公開數(shù)據(jù)集，涵蓋五大類110萬小時資源，以Apache License 2.0協(xié)議發(fā)布，支持學(xué)術(shù)和商業(yè)應(yīng)用。

核心優(yōu)勢：

性能領(lǐng)先：在22個公開評測集上刷新多模態(tài)大模型最好成績（SOTA），在音頻描述、聲音理解、音頻問答任務(wù)中表現(xiàn)突出，同時具備可用的語音識別能力。其音頻編碼器Xiaomi Dasheng在X-ARES Benchmark多項(xiàng)關(guān)鍵任務(wù)，尤其是非語音類理解任務(wù)上顯著優(yōu)于Whisper。

推理效率高：單樣本推理的首Token延遲（TTFT）僅為業(yè)界先進(jìn)模型的1/4；同等顯存下數(shù)據(jù)吞吐效率是業(yè)界先進(jìn)模型的20倍以上，80GB GPU上處理30秒音頻并生成100個token時，batch size可達(dá)512，而同類模型在batch size 16時即顯存溢出。

訓(xùn)練范式革新：采用通用音頻描述對齊范式，通過非單調(diào)全局語義映射，學(xué)習(xí)音頻場景深層語義關(guān)聯(lián)，避免傳統(tǒng)ASR轉(zhuǎn)錄數(shù)據(jù)對齊的局限，數(shù)據(jù)利用率高，還能捕捉說話人情感、空間混響等關(guān)鍵聲學(xué)特征。

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

小米开源人车家生态战略关键技术组件

日期： 2025-08-05

來源：快科技

相關(guān)內(nèi)容