本文介绍了一种基于图推理的信息抽取框架GraphIE,通过图卷积处理文本单元之间的广泛依赖关系,生成更丰富的表示以提高词级预测的性能,评估表明GraphIE明显优于现有的基于序列标注模型。
Oct, 2018
提取网页主要内容,是许多应用的重要任务,现有方法依赖于大量的手工特征分类。我们提出了一种基于神经序列标注模型的方法,其不依赖于任何手工特征,而是将网页中出现的HTML标签和单词作为输入。我们创建了一个新的数据集,并基于我们的模型开发了浏览器扩展,以直接在浏览器中突出显示任意网页的内容。同时,我们的模型可以适应网页结构的变化,并优于现有最先进的模型。
Apr, 2020
本文提出了一种基于文本丰富网络的最小监督文本分类框架,通过联合训练两个模块,分别为文本分析模块和网络学习模块,从而生成伪标签来提高彼此性能,并在两个真实数据集上测试,结果表明该框架在仅提供三个种子文档时能够取得约92%的准确率,并且优于所有比较方法;其准确率仅比在50K个标记文档上训练的监督BERT模型低不到2%。
Feb, 2021
本文介绍了WebFormer,一种从Web文档中提取结构化信息的Web页面转换模型,借助自然语言模型和图注意力等技术,实现了序列化难以提取出的Web页面标记数据的结构化信息提取,通过SWDE和Common Crawl测试基准得出了比其他先进方法更优越的实验结果。
Feb, 2022
本研究提出了一种基于多特征融合的网页文本提取算法,建立了小型神经网络,采用多种统计信息和提取策略,适应了更多页面类型,避免了手动确定阈值的问题。
Mar, 2022
本文提出了一种称为PPRGN的神经网络,该网络基于Personalized PageRank的思想,通过无样本学习的方式训练图像分类模型,该模型具有无限深度且不会出现过度平滑的问题,在各种节点和图像分类任务中实验表现卓越。
Jul, 2022
本研究提出了一种基于 PLM-GNN 的表示和分类方法,利用预训练语言模型和图神经网络对文本和 HTML DOM 树进行联合编码,有效应对网页数据增长的问题,具有较好的分类性能。
May, 2023
提出了HetGPT,一种通用的后训练提示框架,用于改善预训练的异构图神经网络(HGNNs)的预测性能,并通过多视图邻域聚合机制捕捉异构图中的复杂邻域结构。在三个基准数据集上进行的大量实验证明了HetGPT在半监督节点分类方面改进了最先进的HGNNs的性能。
Oct, 2023
关系抽取是一种从网络上挖掘人类知识的高效方式,本文提出了一种名为GraphScholarBERT的开放领域信息抽取方法,它能够从半结构化的网页中提取目标关系,并能在未见过的领域中进行泛化,无需额外数据或训练,并且与搜索关键词完全匹配。实验证明,GraphScholarBERT在零射击域和零射击网站情境下,相比以往的方法,可以提高抽取的F1分数达34.8%。
Feb, 2024
图序列预训练框架 GSPT 利用统一的文本表示,在图领域中取得了显著的可转移性和实证成功。
Jun, 2024