Web2Text: 深度结构化模板去除

Jan, 2018

Web2Text: Deep Structured Boilerplate Removal

Thijs Vogels, Octavian-Eugen Ganea, Carsten Eickhoff

TL;DR介绍了一种利用神经网络和隐马尔可夫模型结合的方法，能够有效地提取网页正文，该方法在 CleanEval 数据库上达到了最先进的去噪声水平，并可提高 ClueWeb12 数据库上信息检索效果。

Abstract

web pages are a valuable source of information for many natural language processing and information retrieval tasks. Extracting the main content from those documents is essential for the performance of derived ap

web pages natural language processing information retrieval sequence labeling boilerplate removal

发现论文，激发创造

神经序列标注模型用于去除样板文件

提取网页主要内容，是许多应用的重要任务，现有方法依赖于大量的手工特征分类。我们提出了一种基于神经序列标注模型的方法，其不依赖于任何手工特征，而是将网页中出现的 HTML 标签和单词作为输入。我们创建了一个新的数据集，并基于我们的模型开发了浏览器扩展，以直接在浏览器中突出显示任意网页的内容。同时，我们的模型可以适应网页结构的变化，并优于现有最先进的模型。

Apr, 2020

通过文本块的语义分类检测套用文本

介绍了一种名为 SemText 的分层神经网络模型，它使用一种新颖的 HTML 标签、类名和文本块的语义表示来检测 HTML 模板，在三个已发表的新闻网页数据集上训练并微调，在 CleanEval 和 GoogleTrends-2017 中使用少量开发数据，结果显示模型在这些数据集上达到了最先进的准确率，同时还展示了 SemText 将 HTML 模板检测领域扩展至基于社区问答网页。

Mar, 2022

基于多特征融合的 Web 页面内容提取

本研究提出了一种基于多特征融合的网页文本提取算法，建立了小型神经网络，采用多种统计信息和提取策略，适应了更多页面类型，避免了手动确定阈值的问题。

Mar, 2022

WebFormer: 网页转换器，用于结构信息提取

本文介绍了 WebFormer，一种从 Web 文档中提取结构化信息的 Web 页面转换模型，借助自然语言模型和图注意力等技术，实现了序列化难以提取出的 Web 页面标记数据的结构化信息提取，通过 SWDE 和 Common Crawl 测试基准得出了比其他先进方法更优越的实验结果。

Feb, 2022

GROWN+UP：利用预训练的网页网络图表达

本研究旨在通过引入一种能够摄取网页结构、自主训练无标签数据、并有效地对网页进行任意任务微调的不可知深度图神经网络特征提取器，缩小现有预先训练模型在网页信息检索领域的巨大差距，我们展示了我们的预训练模型在不同的基准测试中取得了最先进的结果，在网页锅炉板的去除和流派分类等任务中具有潜在的应用价值。

Aug, 2022

FreeDOM: 一种可传输的神经网络架构，用于从 Web 文档中提取结构化信息

本文介绍了一种名为 FreeDOM 的新型两阶段神经方法，该方法通过结合文本和标记信息以及使用关系神经网络来捕捉更长的距离和语义关联性，可以从少量的种子站点的训练中泛化到未知的站点，而无需昂贵的手工制作特征或页面的可视化呈现。实验结果表明，FreeDOM 平均比现有技术高出近 3.7 个 F1 点。

Oct, 2020

HTLM: 语言模型超文本预训练和提示

介绍了一种基于 HTML 训练的超文本语言模型 HTLM，使用 BART-style denoising loss 在简化 HTML 上进行预训练可对广泛端任务和监督级别提供高效的迁移，同时比纯文本模型表现更好，能够自动完成大部分的超文本格式转换，且零样本摘要效果最佳。

Jul, 2021

多级多模态网页理解的生成式任务套件

为了研究多模态网页理解，我们介绍了包含两百万个网页的维基百科网页套件（WikiWeb2M），并在页面描述生成、节选总结和内容图像字幕等三个生成任务上验证了其实用性。

May, 2023

ZeroShotCeres: 半结构化网页的零样本关系抽取

本文提出了一种使用图神经网络技术，实现从之前未见过的模板中提取出信息的 “零样本” 关系提取模型，并在实验中证明该方法相较于基础模型有 31% 的 F1 值提升。

May, 2020

神经网络网页抓取的更清洁预训练语料库的筛选

本文介绍了一种简单、快速、有效的神经网络网页抓取器（NeuScraper），用于从网页中提取主要和干净的文本内容，并通过实验结果显示 NeuScraper 相比基线抓取器的改进超过了 20%，展示了其在提取高质量数据以促进语言模型预训练方面的潜力。

Feb, 2024