《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 設(shè)計(jì)應(yīng)用 > 一種基于混合專家模型的多模態(tài)工單數(shù)據(jù)智能處理方法
一種基于混合專家模型的多模態(tài)工單數(shù)據(jù)智能處理方法
電子技術(shù)應(yīng)用
于重,許文靜,安寧,劉珠慧
國務(wù)院國有資產(chǎn)監(jiān)督管理委員會(huì)干部教育培訓(xùn)中心
摘要: 智能工單系統(tǒng)是企業(yè)數(shù)字化轉(zhuǎn)型的核心支撐平臺(tái)。當(dāng)前,智能工單系統(tǒng)面臨多源異構(gòu)數(shù)據(jù)的跨模態(tài)冗余及語義沖突問題,傳統(tǒng)基于單模態(tài)處理架構(gòu)的大語言模型(Large Language Model,LLM)存在關(guān)鍵信息漏檢率高、數(shù)據(jù)清洗效果差的缺陷,嚴(yán)重制約了工單系統(tǒng)智能化發(fā)展。針對(duì)該問題,混合專家模型(Mixture of Experts,MoE)可通過動(dòng)態(tài)路由機(jī)制自適應(yīng)分配多模態(tài)數(shù)據(jù)至特定專家網(wǎng)絡(luò),在提升跨模態(tài)特征融合精度的同時(shí)顯著優(yōu)化計(jì)算效率?;诖?,提出一種基于混合專家模型的多模態(tài)工單數(shù)據(jù)智能處理方法。首先基于DeepSeekMoE架構(gòu)設(shè)計(jì)了一種語義分析模型,以實(shí)現(xiàn)跨模態(tài)數(shù)據(jù)的特征解耦與關(guān)鍵內(nèi)容提取。其次提出基于Thinker-Talker的多模態(tài)特征融合架構(gòu),有效提升冗余數(shù)據(jù)利用率與語義一致性。最后設(shè)計(jì)非結(jié)構(gòu)化數(shù)據(jù)清洗與結(jié)構(gòu)化表單生成算法,完成原始數(shù)據(jù)的降噪清洗與語義增強(qiáng),輸出符合規(guī)范的結(jié)構(gòu)化工單。消融實(shí)驗(yàn)表明,該方法在私有化數(shù)據(jù)集上的信息提取精度達(dá)92.7%,較傳統(tǒng)工單處理方式的標(biāo)準(zhǔn)符合度提升36.2%,為智能工單系統(tǒng)多模態(tài)數(shù)據(jù)處理提供了可擴(kuò)展的技術(shù)范式。
中圖分類號(hào):TP39 文獻(xiàn)標(biāo)志碼:A DOI: 10.16157/j.issn.0258-7998.256746
中文引用格式: 于重,許文靜,安寧,等. 一種基于混合專家模型的多模態(tài)工單數(shù)據(jù)智能處理方法[J]. 電子技術(shù)應(yīng)用,2025,51(9):1-10.
英文引用格式: Yu Zhong,Xu Wenjing,An Ning,et al. An intelligent processing method for multimodal work order data based on mixture of experts model[J]. Application of Electronic Technique,2025,51(9):1-10.
An intelligent processing method for multimodal work order data based on mixture of experts model
Yu Zhong,Xu Wenjing,An Ning,Liu Zhuhui
SASAC Education and Training System
Abstract: Intelligent work order systems are core platforms for enterprise digital transformation. However, current systems face challenges in cross-modal redundancy and semantic conflicts caused by multi-source heterogeneous data. Traditional large language models (LLMs) relying on single-modal architectures exhibit high rates of critical information omission and poor data cleaning performance, severely hindering system intelligence. To address this, the Mixture of Experts (MoE) model adaptively distributes multimodal data to specialized expert networks through dynamic routing mechanisms, enhancing cross-modal feature fusion accuracy while optimizing computational efficiency. This paper proposes an MoE-based intelligent processing method for multimodal work order data. Firstly, we design a semantic analysis model using the DeepSeekMoE architecture to achieve feature decoupling and key content extraction from cross-modal data. Secondly, we introduce a Thinker-Talker multimodal feature fusion framework to improve redundancy utilization and semantic consistency. Finally, we develope an unstructured data cleaning and structured form generation algorithm to denoise raw data, enhance semantics, and output standardized work orders. Ablation experiments demonstrate that our method achieves 92.7% information extraction accuracy on a private dataset, with a 36.2% improvement in compliance with processing standards compared to traditional methods, providing an extensible technical paradigm for intelligent work order systems.
Key words : intelligent work order system;multimodal data processing;large language model(LLM);data cleaning

引言

智能工單系統(tǒng)的多模態(tài)數(shù)據(jù)分析與處理是提升業(yè)務(wù)系統(tǒng)數(shù)字化、智能化水平的關(guān)鍵步驟,承擔(dān)著客戶服務(wù)請(qǐng)求響應(yīng)[1]、資源調(diào)度優(yōu)化與業(yè)務(wù)流程協(xié)同的關(guān)鍵職能。然而,面對(duì)復(fù)雜業(yè)務(wù)場(chǎng)景中多模態(tài)數(shù)據(jù)分布不均、非結(jié)構(gòu)化數(shù)據(jù)占比高、圖像文字信息驗(yàn)證困難的特殊場(chǎng)景,現(xiàn)有工單系統(tǒng)存在分類效率低、數(shù)據(jù)清洗耗時(shí)長、跨模態(tài)驗(yàn)證準(zhǔn)確率低的問題,嚴(yán)重制約了工單處理的自動(dòng)化水平。

現(xiàn)階段工單系統(tǒng)主要依賴單模態(tài)優(yōu)化技術(shù)提升處理效率,但對(duì)多模態(tài)工單數(shù)據(jù)的協(xié)同處理能力較低。一方面,多源異構(gòu)數(shù)據(jù)存在跨模態(tài)冗余與語義沖突,導(dǎo)致數(shù)據(jù)解析過程中關(guān)鍵信息漏檢率偏高;另一方面,基于單模態(tài)處理的大語言模型難以有效捕捉跨模態(tài)關(guān)聯(lián)特征,導(dǎo)致結(jié)構(gòu)化表單生成數(shù)據(jù)精度偏低,嚴(yán)重制約了工單處理的智能化水平。

目前學(xué)術(shù)界在多模態(tài)數(shù)據(jù)處理領(lǐng)域取得階段性進(jìn)展:甘卓浩等[2]提出一種基于跨模態(tài)交互 Transformer 的多模態(tài)方面級(jí)情感分析模型,通過文本語義增強(qiáng)模塊融合圖像標(biāo)題與原始文本以彌補(bǔ)情感語義缺失;聶佳莉等[3]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制模型的多模態(tài)特征融合波束賦形方法,以實(shí)現(xiàn)感知輔助的高可靠通信;此外,Kettenring[4]、Groves[5]和Martínez-Montes[6]等人也分別提出了不同的分析模型。然而,現(xiàn)有研究仍存在局限:一是跨模態(tài)冗余數(shù)據(jù)的協(xié)同利用率不足,關(guān)鍵信息漏檢率高;二是多模態(tài)特征融合缺乏語義一致性保障,數(shù)據(jù)清洗與結(jié)構(gòu)化生成環(huán)節(jié)割裂。

本文針對(duì)上述挑戰(zhàn)提出系統(tǒng)性解決方案。首先,基于DeepSeekMoE架構(gòu)設(shè)計(jì)多模態(tài)語義分析模型,分別構(gòu)建面向語音、文本、圖像數(shù)據(jù)的領(lǐng)域?qū)<易泳W(wǎng)絡(luò),實(shí)現(xiàn)了跨模態(tài)數(shù)據(jù)的特征解耦與關(guān)鍵內(nèi)容提取,完成非結(jié)構(gòu)化數(shù)據(jù)的降噪清洗與語義增強(qiáng)。其次,提出基于Thinker-Talker的多模態(tài)特征融合架構(gòu),對(duì)異構(gòu)數(shù)據(jù)的深層語義進(jìn)行表征映射與沖突消解,實(shí)現(xiàn)多源特征的互補(bǔ)性驗(yàn)證,有效提升冗余數(shù)據(jù)利用率與語義一致性。最后,針對(duì)工單生成場(chǎng)景設(shè)計(jì)了非結(jié)構(gòu)化數(shù)據(jù)清洗與結(jié)構(gòu)化表單生成算法,動(dòng)態(tài)抓取系統(tǒng)日志、設(shè)備狀態(tài)等輔助信息,通過雙向約束校驗(yàn)機(jī)制實(shí)現(xiàn)字段完整性驗(yàn)證與異常修正,最終輸出符合相關(guān)標(biāo)準(zhǔn)的結(jié)構(gòu)化工單。

本文結(jié)構(gòu)如下:第1章介紹基于大語言模型的多模態(tài)數(shù)據(jù)處理技術(shù)的發(fā)展與技術(shù)現(xiàn)狀;其次給出基于DeepSeekMoE架構(gòu)的多模態(tài)語義分析模型;然后提出基于Thinker-Talker的雙通道多模態(tài)特征融合架構(gòu);接著介紹了非結(jié)構(gòu)化數(shù)據(jù)清洗與結(jié)構(gòu)化表單生成算法在智能工單系統(tǒng)的實(shí)證應(yīng)用;最后對(duì)提出的方法進(jìn)行了消融實(shí)驗(yàn)驗(yàn)證其性能。


本文詳細(xì)內(nèi)容請(qǐng)下載:

http://www.ihrv.cn/resource/share/2000006679


作者信息:

于重,許文靜,安寧,劉珠慧

(國務(wù)院國有資產(chǎn)監(jiān)督管理委員會(huì)干部教育培訓(xùn)中心,北京 100053)


Magazine.Subscription.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。