基于网页分割的Web信息提取算法
所屬分類:技术论文
上傳者:aet
文檔大?。?span>238 K
所需積分:0分積分不夠怎么辦?
文檔介紹:针对网页非结构化信息抽取复杂度高的问题,提出了一种基于网页分割的Web信息提取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本提取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。
現(xiàn)在下載
VIP會員,AET專家下載不扣分;重復下載不扣分,本人上傳資源不扣分。