| 基于视觉特征的网页正文提取方法研究 | |
| 所屬分類:技术论文 | |
| 上傳者:aet | |
| 文檔大?。?span>328 K | |
| 所需積分:0分積分不夠怎么辦? | |
| 文檔介紹:利用网页的视觉特征和DOM树的结构特性对网页进行分块,并采用逐层分块逐层删减的方法将与正文无关的噪音块删除,从而得到正文块。对得到的正文块运用VIPS算法得到完整的语义块,最后在语义块的基础上提取正文内容。试验表明,这种方法是切实可行的。 | |
| 現(xiàn)在下載 | |
| VIP會員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。 | |
Copyright ? 2005-2024 華北計算機系統(tǒng)工程研究所版權(quán)所有 京ICP備10017138號-2