一种基于成词率和谱聚类的电力文本领域词发现方法
所屬分類:技术论文
上傳者:aetmagazine
文檔大小:544 K
標(biāo)簽: 成词率 谱聚类 领域词发现
所需積分:0分積分不夠怎么辦?
文檔介紹:考虑到当前电力行业仍缺少有效的领域词发现方法,以电力行业科技项目文本为原始语料库,将基于互信息与左右熵的统计特征与传统语言构词规则特征相融合,提出了电力文本成词率的概念。所提方法首先利用成词率对电力文本进行无监督筛选得到初始候选词集,然后对候选词集进行文本切片算法和常用词过滤操作,最后进行词嵌入和谱聚类得到最终所需的电力文本领域词。实验结果表明,所提出的方法准确有效,为电力文本的领域词发现提供了一种新方法。
現(xiàn)在下載
VIP會員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。