web pages are a valuable source of information for many natural language
processing and information retrieval tasks. Extracting the main content from
those documents is essential for the performance of derived ap
提取网页主要内容,是许多应用的重要任务,现有方法依赖于大量的手工特征分类。我们提出了一种基于神经序列标注模型的方法,其不依赖于任何手工特征,而是将网页中出现的 HTML 标签和单词作为输入。我们创建了一个新的数据集,并基于我们的模型开发了浏览器扩展,以直接在浏览器中突出显示任意网页的内容。同时,我们的模型可以适应网页结构的变化,并优于现有最先进的模型。
介绍了一种名为 SemText 的分层神经网络模型,它使用一种新颖的 HTML 标签、类名和文本块的语义表示来检测 HTML 模板,在三个已发表的新闻网页数据集上训练并微调,在 CleanEval 和 GoogleTrends-2017 中使用少量开发数据,结果显示模型在这些数据集上达到了最先进的准确率,同时还展示了 SemText 将 HTML 模板检测领域扩展至基于社区问答网页。