| 基于网页分割的Web信息提取算法 | |
| 所屬分類:技术论文 | |
| 上傳者:aet | |
| 文檔大?。?span>238 K | |
| 所需積分:0分積分不夠怎么辦? | |
| 文檔介紹:针对网页非结构化信息抽取复杂度高的问题,提出了一种基于网页分割的Web信息提取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本提取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。 | |
| 現(xiàn)在下載 | |
| VIP會員,AET專家下載不扣分;重復下載不扣分,本人上傳資源不扣分。 | |
Copyright ? 2005-2024 華北計算機系統(tǒng)工程研究所版權所有 京ICP備10017138號-2