基于视觉特征的网页正文提取方法研究
所屬分類:技术论文
上傳者:aet
文檔大?。?span>328 K
所需積分:0分積分不夠怎么辦?
文檔介紹:利用网页的视觉特征和DOM树的结构特性对网页进行分块,并采用逐层分块逐层删减的方法将与正文无关的噪音块删除,从而得到正文块。对得到的正文块运用VIPS算法得到完整的语义块,最后在语义块的基础上提取正文内容。试验表明,这种方法是切实可行的。
現(xiàn)在下載
VIP會員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。