2 月 28 日消息,MIT News 于 2 月 26 日發(fā)布博文,報(bào)道稱麻省理工學(xué)院(MIT)聯(lián)合英偉達(dá)等機(jī)構(gòu),發(fā)布“馴服長尾”(TLT)技術(shù),可以大幅提升推理大語言模型(LLM)的訓(xùn)練效率。
援引博文介紹,推理大模型擅長通過拆解步驟來解決復(fù)雜問題,但在強(qiáng)化學(xué)習(xí)(RL)的訓(xùn)練過程中,算力與能耗的消耗極為巨大。
研究團(tuán)隊(duì)發(fā)現(xiàn),生成多個(gè)備選答案的“推演”(rollout)階段占據(jù)了高達(dá) 85% 的訓(xùn)練時(shí)間。由于不同處理器生成回答的長度不一,完成較快的處理器只能被迫閑置,等待其他處理器完成長文本任務(wù),從而形成了嚴(yán)重的效率瓶頸。
MIT 研究人員為解決該痛點(diǎn),聯(lián)合英偉達(dá)、蘇黎世聯(lián)邦理工學(xué)院等機(jī)構(gòu),提出了一種名為“馴服長尾(TLT)”的自適應(yīng)解決方案。

該方案的核心在于創(chuàng)新性地運(yùn)用“投機(jī)解碼”技術(shù),即訓(xùn)練一個(gè)較小的“草稿模型”(drafter)來快速預(yù)測(cè)大模型的未來輸出,隨后由大模型批量驗(yàn)證這些猜測(cè)。這樣一來,大模型無需逐個(gè)順序生成輸出,從而大幅加快了處理進(jìn)程。


在傳統(tǒng)的投機(jī)解碼中,草稿模型通常只訓(xùn)練一次并保持靜態(tài)。然而在強(qiáng)化學(xué)習(xí)中,主模型需要更新數(shù)千次,靜態(tài)草稿模型會(huì)迅速失效。

因此,TLT 系統(tǒng)引入了“自適應(yīng)草稿訓(xùn)練器”。一旦部分處理器完成短查詢進(jìn)入閑置狀態(tài),系統(tǒng)會(huì)立即調(diào)度它們實(shí)時(shí)訓(xùn)練草稿模型。
同時(shí),“自適應(yīng)推演引擎”會(huì)根據(jù)工作負(fù)載特征自動(dòng)調(diào)整解碼策略,確保草稿模型始終與目標(biāo)大模型保持高度同步,且不增加額外算力開銷。

基于真實(shí)世界數(shù)據(jù)集的測(cè)試表明,TLT 技術(shù)在保持模型準(zhǔn)確率完全無損的情況下,將多個(gè)推理大語言模型的訓(xùn)練速度提升了 70% 到 210%。

不僅如此,訓(xùn)練得到的輕量級(jí)草稿模型還可以作為免費(fèi)的副產(chǎn)品,直接用于后期的高效部署。研究團(tuán)隊(duì)未來計(jì)劃將該技術(shù)融入更多訓(xùn)練與推理框架中,進(jìn)一步降低 AI 開發(fā)成本并提升能源利用率。

