《電子技術(shù)應用》
您所在的位置:首頁(yè) > 人工智能 > 業(yè)界動(dòng)態(tài) > 國內首個(gè)開(kāi)源千億參數MoE大模型來(lái)了

國內首個(gè)開(kāi)源千億參數MoE大模型來(lái)了

性能超Grok-1,單張GPU可跑
2024-04-03
來(lái)源:智東西
關(guān)鍵詞: MoE 大模型

全球移動(dòng)互聯(lián)網(wǎng)公司APUS與大模型創(chuàng )企新旦智能宣布,聯(lián)手開(kāi)源國內首個(gè)千億參數的MoE(混合專(zhuān)家模型)APUS-xDAN大模型4.0,這也是國內首個(gè)可以在消費級顯卡上運行的千億MoE中英文大模型。

APUS-xDAN-4.0(MoE)參數規模為1360億,可在消費級顯卡4090上運行,據APUS實(shí)測,其綜合性能超過(guò)GPT-3.5,達到GPT-4的90%。

數學(xué)能力上,測評基準GSM8K的測評得分為79,理解能力MMLU達到73分。

1.png

GitHub界面顯示,APUS-xDAN-4.0(MoE)模型文件鏈接即將發(fā)布。

一、數學(xué)、推理能力碾壓,推理成本下降400%

APUS-xDAN-4.0(MoE)在GitHub的頁(yè)面顯示了基準測評結果,其與Mixtral-8x7B(MoE)、Llama2-70B、Grok-1(MoE)進(jìn)行了對比。

其中衡量模型語(yǔ)言理解、知識和推理能力的基準測試MMLU中,APUS-xDAN-4.0(MoE)排名第一,超過(guò)了Grok-1(MoE)。

在測試多步驟數學(xué)推理能力的單詞問(wèn)題集合測試GSM-9K以及MATH中,該模型得分均遠高于其他三大模型。

四項測試中,APUS-xDAN-4.0(MoE)在多學(xué)科任務(wù)的BIG-Bench-Hard測試中,得分為66.4,接近Mixtral-8x7B(MoE),低于Grok-1(MoE)的71.7分。

其中,Mixtral-8x7B(MoE)由大模型創(chuàng )企Mistral AI于去年年底發(fā)布,并在多項基準測試中性能都基本達到GPT-3.5;Llama2-70B是去年7月Meta開(kāi)源的Llama 2大模型系列中,參數規模最大的版本;Grok-1(MoE)為馬斯克旗下AI創(chuàng )企xAI本月初開(kāi)源的大模型,參數規模為3140億參數,是目前開(kāi)源大模型中參數規模之最。

此外,在GitHub頁(yè)面顯示,APUS-xDAN-4.0(MOE)開(kāi)源模型在“IQ-Quantized Tech”上量化為1.5位、2位和4位,可以在消費級顯卡4090上運行。

2.png

具體來(lái)說(shuō),APUS-xDAN 大模型4.0(MoE)采用GPT-4類(lèi)似的MoE架構,特點(diǎn)是多專(zhuān)家模型組合,同時(shí)激活使用只有2個(gè)子模塊,實(shí)際運行效率對比傳統Dense同尺寸模型效率提升200%,推理成本下降400%。在實(shí)際部署中,研究人員通過(guò)進(jìn)一步高精度微調量化技術(shù),使得模型尺寸縮小500%。

二、32個(gè)MoE Transformer塊組成,可處理多線(xiàn)程復雜需求

在實(shí)際的效果中,APUS-xDAN-4.0(MoE)可以理解復雜需求,如撰寫(xiě)廣告文案時(shí),要求涵蓋“火焰人”、固定口號、搖滾樂(lè )歌詞等。

3.png

該模型還可以找出段落中的實(shí)時(shí)性錯誤,并給出修改版本,包括品牌所屬地區、語(yǔ)病等。

43.png

APUS-xDAN-4.0(MOE)模型的架構特點(diǎn)為,主要由32個(gè)相同的MoE Transformer塊組成,與普通Transformer塊相比,MoE Transformer塊的FFN層被MoE FFN層替換。

張量經(jīng)過(guò)門(mén)層計算每個(gè)專(zhuān)家模型的分數,根據專(zhuān)家分數從8個(gè)專(zhuān)家模型中選擇Top-K專(zhuān)家。張量通過(guò)Top-K專(zhuān)家的輸出進(jìn)行聚合,從而得到MoE FFN層的最終輸出。

每個(gè)專(zhuān)家由3個(gè)線(xiàn)性層(Linear Layers)組成。APUS-xDAN-4.0的所有Norm Layer都是用RMSNorm,與開(kāi)源大模型Llama的方式一致。

在注意力層中,APUS-xDAN-4.0(MoE)中的QKV矩陣的Q矩陣形狀為(4096,4096),K和V矩陣形狀為(4096,1024)。

5.png

▲APUS-xDAN-4.0(MoE)模型架構圖

三、APUS是投資方,7B模型表現超GPT-4

APUS-xDAN-4.0(MoE)背后的兩家公司均來(lái)自國內,且APUS于今年3月投資了新旦智能。

新旦智能成立于2023年5月,此前該公司發(fā)布的xDAN-7B-Global在用于衡量大模型在機器翻譯任務(wù)性能的綜合性評估指標MT-Bench中,性能表現僅次于GPT-4。

6.png

▲MT-Bench排名

今年3月,新旦智能完成千萬(wàn)級別天使輪融資,投資方包括APUS和AI投資人周弘揚。

據了解,新旦智能的創(chuàng )始團隊匯集了清華、伯克利等頂尖學(xué)府以及騰訊、Meta等頭部科技玩家的員工,包括全球開(kāi)源AI社區知名開(kāi)發(fā)者、騰訊云架構師等。

與此同時(shí),這也是APUS在開(kāi)源大模型領(lǐng)域的最新進(jìn)展。今年2月初,APUS與深圳大學(xué)國家工程實(shí)驗室聯(lián)合開(kāi)源了APUS大模型3.0伶荔。

結語(yǔ):更強開(kāi)源MoE模型,或加速AI開(kāi)發(fā)及應用創(chuàng )新

開(kāi)源大模型對于全球大模型產(chǎn)業(yè)的技術(shù)進(jìn)步與應用落地的重要性與日俱增,并逐漸顯現出對標當下大模型頂流GPT-4的潛力。

在這個(gè)趨勢下,APUS與新旦智能聯(lián)手,既開(kāi)源了目前國內參數規模最大的MoE模型,同時(shí)降低了其部署成本,為更多開(kāi)發(fā)者提供了應用大模型能力的可能性,這或許將進(jìn)一步加速AI開(kāi)發(fā)及應用創(chuàng )新。


雜志訂閱.jpg

本站內容除特別聲明的原創(chuàng )文章之外,轉載內容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀(guān)點(diǎn)。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng )文章及圖片等內容無(wú)法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問(wèn)題,請及時(shí)通過(guò)電子郵件或電話(huà)通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話(huà):010-82306118;郵箱:aet@chinaaet.com。
少妇特殊按摩高潮惨叫无码,被喂饱的室友(H)御书屋,成人欧美一区二区三区视频,在厨房挺进市长美妇雪臀大宝