GROWN+UP：利用预训练的网页网络图表达

Aug, 2022

GROWN+UP：利用预训练的网页网络图表达

GROWN+UP: A Graph Representation Of a Webpage Network Utilizing Pre-training

Benedict Yeoh, Huijuan Wang

TL;DR本研究旨在通过引入一种能够摄取网页结构、自主训练无标签数据、并有效地对网页进行任意任务微调的不可知深度图神经网络特征提取器，缩小现有预先训练模型在网页信息检索领域的巨大差距，我们展示了我们的预训练模型在不同的基准测试中取得了最先进的结果，在网页锅炉板的去除和流派分类等任务中具有潜在的应用价值。

Abstract

Large pre-trained neural networks are ubiquitous and critical to the success of many downstream tasks in natural language processing and computer vision. However, within the field of web information retrieval, th

发现论文，激发创造

GraphIE: 基于图的信息提取框架

本文介绍了一种基于图推理的信息抽取框架GraphIE，通过图卷积处理文本单元之间的广泛依赖关系，生成更丰富的表示以提高词级预测的性能，评估表明GraphIE明显优于现有的基于序列标注模型。

Oct, 2018

神经序列标注模型用于去除样板文件

提取网页主要内容，是许多应用的重要任务，现有方法依赖于大量的手工特征分类。我们提出了一种基于神经序列标注模型的方法，其不依赖于任何手工特征，而是将网页中出现的HTML标签和单词作为输入。我们创建了一个新的数据集，并基于我们的模型开发了浏览器扩展，以直接在浏览器中突出显示任意网页的内容。同时，我们的模型可以适应网页结构的变化，并优于现有最先进的模型。

Apr, 2020

通过学习文本丰富的网络实现最小监督的结构丰富的文本分类

本文提出了一种基于文本丰富网络的最小监督文本分类框架，通过联合训练两个模块，分别为文本分析模块和网络学习模块，从而生成伪标签来提高彼此性能，并在两个真实数据集上测试，结果表明该框架在仅提供三个种子文档时能够取得约92%的准确率，并且优于所有比较方法；其准确率仅比在50K个标记文档上训练的监督BERT模型低不到2%。

Feb, 2021

WebFormer: 网页转换器，用于结构信息提取

本文介绍了WebFormer，一种从Web文档中提取结构化信息的Web页面转换模型，借助自然语言模型和图注意力等技术，实现了序列化难以提取出的Web页面标记数据的结构化信息提取，通过SWDE和Common Crawl测试基准得出了比其他先进方法更优越的实验结果。

Feb, 2022

基于多特征融合的Web页面内容提取

本研究提出了一种基于多特征融合的网页文本提取算法，建立了小型神经网络，采用多种统计信息和提取策略，适应了更多页面类型，避免了手动确定阈值的问题。

Mar, 2022

将PageRank转化为无限深度图神经网络

本文提出了一种称为PPRGN的神经网络，该网络基于Personalized PageRank的思想，通过无样本学习的方式训练图像分类模型，该模型具有无限深度且不会出现过度平滑的问题，在各种节点和图像分类任务中实验表现卓越。

Jul, 2022

基于联合预训练语言模型和图神经网络的Web页面分类方法

本研究提出了一种基于 PLM-GNN 的表示和分类方法，利用预训练语言模型和图神经网络对文本和 HTML DOM 树进行联合编码，有效应对网页数据增长的问题，具有较好的分类性能。

May, 2023

HetGPT: 利用预训练异构图神经网络的提示调节能力

提出了HetGPT，一种通用的后训练提示框架，用于改善预训练的异构图神经网络（HGNNs）的预测性能，并通过多视图邻域聚合机制捕捉异构图中的复杂邻域结构。在三个基准数据集上进行的大量实验证明了HetGPT在半监督节点分类方面改进了最先进的HGNNs的性能。

Oct, 2023

结合语言和图模型进行Web上的半结构化信息提取

关系抽取是一种从网络上挖掘人类知识的高效方式，本文提出了一种名为GraphScholarBERT的开放领域信息抽取方法，它能够从半结构化的网页中提取目标关系，并能在未见过的领域中进行泛化，无需额外数据或训练，并且与搜索关键词完全匹配。实验证明，GraphScholarBERT在零射击域和零射击网站情境下，相比以往的方法，可以提高抽取的F1分数达34.8%。

Feb, 2024

文本属性图上的纯Transformer预训练框架

图序列预训练框架 GSPT 利用统一的文本表示，在图领域中取得了显著的可转移性和实证成功。

Jun, 2024