《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 电源技术 > 设计应用 > 基于规则和词典的用电安全领域命名实体识别
基于规则和词典的用电安全领域命名实体识别
2022年电子技术应用第12期
袁金斗1,潘明明1,张 腾2,姜 珏1
1.中国电力科学研究院有限公司,北京100192;2.国网江苏省电力有限公司,江苏 南京210000
摘要: 在用电安全领域,存在着大量数据、知识未得到充分挖掘和利用,构建领域知识图谱不仅可以实现用电安全知识的整合,还能极大地提高电力行业的工作效率。命名实体识别是构建知识图谱的基础性工作,研究了基于字典和规则的命名实体识别,通过领域实体词典、构词特征字符规则匹配和词性组合特征规则匹配三种方法从非结构文本中准确地提取用电安全相关实体,为用电安全领域知识图谱的构建提供高质量和高精度的实体。为优化识别流程、提高响应速度,将通用词性标注任务交由边缘节点进行处理,中心服务器仅需响应规则模板匹配等任务。在小规模测试实验中,综合使用三种方法对用电安全文本进行领域实体识别,F1值能达到85%以上。
中圖分類號(hào): TP391.1
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.223323
中文引用格式: 袁金斗,潘明明,張騰,等. 基于規(guī)則和詞典的用電安全領(lǐng)域命名實(shí)體識(shí)別[J].電子技術(shù)應(yīng)用,2022,48(12):22-27.
英文引用格式: Yuan Jindou,Pan Mingming,Zhang Teng,et al. Electricity safety domain named entity recognition based on rules and dictionaries[J]. Application of Electronic Technique,2022,48(12):22-27.
Electricity safety domain named entity recognition based on rules and dictionaries
Yuan Jindou1,Pan Mingming1,Zhang Teng2,Jiang Jue1
1.China Electric Power Research Institute,Beijing 100192,China; 2.State Grid Jiangsu Electric Power Co.,Ltd.,Nanjing 210000,China
Abstract: In the field of electricity safety, there are a lots of data and knowledge has not been excavated and utilized, constructing a knowledge graph in the electricity safety field can not only integrate power knowledge, but also greatly improve the efficiency of the power industry. Named entity recognition(NER) is the basis for constructing knowledge graph, this paper studies the named entity recognition based on dictionaries and rules, through three methods: the domain entity dictionary, the word-building feature character rule matching and the part-of-speech combination feature rule matching,to accurately extract electricity safety related entities from non-structured text, providing high-quality and high-precision entities for the construction of knowledge graph in the field of electricity safety. In order to optimize the recognition process and improve the response speed, the general part-of-speech tagging task is sent to the edge node for processing, and the central server processes the rule template matching task. Experimental results show that using the three methods comprehensively to recognition the domain entity of small-scale electricity safety text, the F1 score can reach more than 85%.
Key words : electricity safety domain;NER;domain dictionary;featured character rules;part-of-speech combination rules

0 引言

    命名實(shí)體識(shí)別[1-3](Named Entity Recognition,NER)在通用領(lǐng)域中主要是指識(shí)別文本中的人名、地名、機(jī)構(gòu)名、時(shí)間、貨幣等具有特定意義的實(shí)體。目前,命名實(shí)體識(shí)別的主要方法包括三類:基于規(guī)則[4]和詞典[5-6]的方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法[7]和基于深度神經(jīng)網(wǎng)絡(luò)的方法[8]

    目前,用電安全領(lǐng)域缺乏權(quán)威數(shù)據(jù)集[9],命名實(shí)體識(shí)別研究工作首先需要對(duì)語(yǔ)料集進(jìn)行序列標(biāo)注,標(biāo)記非結(jié)構(gòu)文本中的相關(guān)實(shí)體、無(wú)關(guān)字符、詞性序列等,在此研究背景下,采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)、深度神經(jīng)網(wǎng)絡(luò)的方法較難獲取大規(guī)模的訓(xùn)練語(yǔ)料集。因此,本文主要基于規(guī)則和詞典的方法對(duì)實(shí)體命名識(shí)別進(jìn)行第一階段研究,發(fā)掘用電安全領(lǐng)域?qū)嶓w構(gòu)詞規(guī)則及詞性特征,構(gòu)建領(lǐng)域詞典及規(guī)則模板,進(jìn)一步擴(kuò)充語(yǔ)料庫(kù),為后續(xù)用電安全領(lǐng)域命名實(shí)體識(shí)別的機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)方法的研究奠定基礎(chǔ)。

    從技術(shù)角度分析,如果構(gòu)建的領(lǐng)域詞典能夠覆蓋待識(shí)別文本中絕大多數(shù)相關(guān)實(shí)體,那么,基于詞典的命名實(shí)體識(shí)別方法將具有高準(zhǔn)確度及高響應(yīng)度。但是,領(lǐng)域?qū)嶓w的多樣性、復(fù)雜性、衍生性導(dǎo)致構(gòu)建覆蓋全面的高質(zhì)量詞典較為困難。因此,基于詞典的方法通常是基于規(guī)則方法的輔助補(bǔ)充手段[10]?;谝?guī)則的實(shí)體命名識(shí)別多采用人工歸納并構(gòu)造規(guī)則模板,選用特征包括標(biāo)點(diǎn)符號(hào)、關(guān)鍵字、指示詞和方向詞、位置詞(如前后綴)、中心詞等,以規(guī)則模板的正則匹配為主要手段[11]。當(dāng)語(yǔ)料規(guī)模不大且提取的規(guī)則能比較精確地反映語(yǔ)言現(xiàn)象時(shí),基于規(guī)則和詞典的方法其性能要優(yōu)于基于統(tǒng)計(jì)的方法[12]。

    另一方面,物聯(lián)網(wǎng)設(shè)備和數(shù)據(jù)的爆發(fā)式增長(zhǎng),使得基于云計(jì)算模型的聚合性服務(wù)逐漸顯露出其在實(shí)時(shí)性、網(wǎng)絡(luò)制約、資源開銷等方面的不足。為彌補(bǔ)集中式云計(jì)算的不足,本文采用邊緣計(jì)算架構(gòu),其優(yōu)勢(shì)在于能夠在數(shù)據(jù)產(chǎn)生側(cè)快捷、高效地響應(yīng)業(yè)務(wù)需求,減小服務(wù)對(duì)網(wǎng)絡(luò)的依賴,在離線狀態(tài)下也能夠提供基礎(chǔ)業(yè)務(wù)服務(wù)。




本文詳細(xì)內(nèi)容請(qǐng)下載:http://www.ihrv.cn/resource/share/2000005035




作者信息:

袁金斗1,潘明明1,張  騰2,姜  玨1

(1.中國(guó)電力科學(xué)研究院有限公司,北京100192;2.國(guó)網(wǎng)江蘇省電力有限公司,江蘇 南京210000)




wd.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。