Mar, 2022

基于多特征融合的 Web 页面内容提取

TL;DR本研究提出了一种基于多特征融合的网页文本提取算法,建立了小型神经网络,采用多种统计信息和提取策略,适应了更多页面类型,避免了手动确定阈值的问题。