中文引用格式: 葛朔,鄒華,潘明明,等. 基于機(jī)器閱讀理解的電力安全命名實(shí)體識別方法[J]. 電子技術(shù)應(yīng)用,2025,51(6):21-26.
英文引用格式: Ge Shuo,Zou Hua,Pan Mingming,et al. Named entity recognition method for power safety based on machine reading comprehension[J]. Application of Electronic Technique,2025,51(6):21-26.
引言
電力行業(yè)是整個(gè)國家的能源支撐[1],而電力安全檢查既是減少生產(chǎn)安全事故、保障生命財(cái)產(chǎn)安全的重要環(huán)節(jié),也是國家電網(wǎng)公司人力成本重要支出環(huán)節(jié)。當(dāng)前電力安全檢查領(lǐng)域知識以非結(jié)構(gòu)化文檔形式存在,亟需建立統(tǒng)一的電力安全領(lǐng)域知識體系,而知識圖譜為構(gòu)建知識體系的最佳手段[2]。因此,通過研究針對電力安全領(lǐng)域?qū)嶓w的命名實(shí)體識別方法,準(zhǔn)確識別電力安全領(lǐng)域?qū)嶓w,并在此基礎(chǔ)上構(gòu)建領(lǐng)域知識圖譜,對提升電力系統(tǒng)智能化自動(dòng)化水平具有積極的意義。
當(dāng)前許多學(xué)者對電力領(lǐng)域命名實(shí)體識別做了大量的研究,主要分為基于規(guī)則和字典的方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法及基于深度學(xué)習(xí)的方法。曹靖等[3]與劉梓權(quán)等[4]通過構(gòu)建電力領(lǐng)域?qū)I(yè)詞典,將完成分詞的語料在詞庫中進(jìn)行匹配以完成命名實(shí)體識別工作。然而,基于規(guī)則與詞典方法依賴于行業(yè)專家知識、可遷移性較差且需要不斷進(jìn)行維護(hù)。邵詩韻等[5]利用條件隨機(jī)場模型完成電力工程標(biāo)書中文本實(shí)體的識別,實(shí)現(xiàn)對關(guān)鍵內(nèi)容的自動(dòng)抽?。粭罹S等[6]采用條件隨機(jī)場模型從預(yù)料中識別出電力標(biāo)準(zhǔn)內(nèi)容關(guān)聯(lián)的實(shí)體名。然而,基于統(tǒng)計(jì)學(xué)習(xí)的方法存在時(shí)間復(fù)雜度較高、難以對大規(guī)模樣本訓(xùn)練的問題。馮斌等[7]將注意力機(jī)制結(jié)合雙向長短期網(wǎng)絡(luò)模型實(shí)現(xiàn)電力設(shè)備缺陷關(guān)鍵類型實(shí)體的提?。皇Y晨等[8]對通用BERT進(jìn)行參數(shù)初置,解決對電力信息的自動(dòng)挖掘問題。
近年來,許多研究聚焦于將Transformer方法應(yīng)用于電力領(lǐng)域命名實(shí)體識別。顧亦然等[9]利用Transformer模型處理語料增強(qiáng)句子語義表示,解決電機(jī)領(lǐng)域中的實(shí)體識別問題;國網(wǎng)江蘇省電力公司[10]利用Transformer模型捕捉單詞之間的關(guān)系與上下文,但對電力專業(yè)領(lǐng)域的特點(diǎn)關(guān)注不足;徐曉軼等[11]在模型中引入Transformer編碼器機(jī)制,提升了模型在電力垂直領(lǐng)域的適應(yīng)性。這些研究提升了在電力領(lǐng)域命名實(shí)體識別任務(wù)的效果,但在檢修規(guī)程等電力安全領(lǐng)域文本實(shí)體的實(shí)際分布中,存在大量嵌套實(shí)體等復(fù)雜實(shí)體,當(dāng)前研究對該部分實(shí)體關(guān)注度不足,導(dǎo)致識別準(zhǔn)確率受到影響。
為解決電力安全領(lǐng)域文本中的嵌套實(shí)體問題,本文提出了一種基于機(jī)器閱讀理解的命名實(shí)體識別方法。針對電力安全領(lǐng)域中存在大量嵌套實(shí)體的實(shí)際情況以及傳統(tǒng)基于機(jī)器閱讀理解方法對先驗(yàn)知識利用不充分的問題,通過引入層次注意力機(jī)制的方法,對文本中的實(shí)體進(jìn)行識別抽取,實(shí)現(xiàn)電力安全實(shí)體的精準(zhǔn)識別。
本文詳細(xì)內(nèi)容請下載:
http://www.ihrv.cn/resource/share/2000006557
作者信息:
葛朔1,鄒華1,潘明明2,王白根3
(1.北京郵電大學(xué) 計(jì)算機(jī)學(xué)院(國家示范性軟件學(xué)院),北京 100876;
2.中國電力科學(xué)研究院有限公司,北京 100192;
3.國網(wǎng)安徽省電力有限公司安慶供電公司,安徽 安慶 246000)