基于网页聚类的Web信息自动抽取
所屬分類:技术论文
上傳者:aet
文檔大?。?span>305 K
所需積分:0分積分不夠怎么辦?
文檔介紹:针对现今较流行的动态Web网页数量巨大,数据价值高,并且网页结构高度模板化的特点,设计了一个基于网页聚类的Web信息自动抽取系统.在DOM抽取技术基础上利用网页聚类寻找高相似簇,并引入列相似度和全局自相似度计算方法,提高了聚类结果的准确性.抽取模板中应用了可选节点对模板的修正和调整,以提高内容节点的正确标识,实验结果表明,该方法能够自动寻找并抽取网页主要信息,达到了较高的准确率和查全率.
現(xiàn)在下載
VIP會員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。