通过从 GitHub 中提取的 GitTables 数据集,我们可以训练和评估应用于深度学习的高容量模型,以实现表征模型与关系数据库表相似的表。通过进行语义类型标注、层次关系和来自 Schema.org 和 DBpedia 的描述,我们可以提供人工注释一致的结果,并通过三个应用:语义类型检测模型、模式完成方法以及用于表到知识图谱匹配的基准测试,展示 GitTables 的价值。
Jun, 2021
通过使用通用模式和矩阵因式分解模型,同时处理文本和现有结构化数据库中的关系,以实现更精确的关系抽取。
Jan, 2013
关系数据库中的数据存储方式使得使用机器学习模型变得具有挑战性和耗时,通过引入关系深度学习(RDL)方法,我们可以直接学习跨多个表格布置的数据,而无需进行手动特征工程。关系深度学习通过自动学习图引导,从而提取利用所有输入数据的表示,从而构建更准确的模型且速度更快。
Dec, 2023
本文介绍了 QuaRel 数据集、适用于此类问题的简单灵活的概念框架、逻辑表达式以及用于此任务的两个新模型:第一个模型(称为 QuaSP+)在 QuaRel 上显着优于现有工具,第二个模型(QuaSP + Zero)展现了零样本能力。
Nov, 2018
本文提出了超关系实体抽取(hyper-relational extraction)的任务,并设计了适用于该任务的 CubeRE 模型,该模型能够处理关系三元组及其限定词之间的交互,并在 HyperRED 数据集上取得了优于基线模型的效果。
Nov, 2022
该论文提出了一种 Contextualized Table Extraction (CTE) 的任务,目的是根据文档的文本信息来提取和定义表格结构,提供了一个包含超过 35,000 个表格的科学论文的数据集,并且可以用于开发各种任务的端到端流程,包括文档布局分析、表格检测、结构识别和功能分析,并且定义了评估指标,描述了此数据集的优点、限制和未来工作。
Feb, 2023
本文提出了 TURL 框架,该框架利用预训练 / 微调方法,在无监督的情况下学习关系表的深度上下文化表示,并应用于各种任务中。通过结构感知的 Transformer 编码器建模关系表的行列结构,并引入了一种新的 Masked Entity Recovery 目标进行预训练。在 6 个不同的关系表理解任务中,TURL 广泛适用且相对于现有方法具有更好的表现。
Jun, 2020
我们提出了一种丰富注释的语言资源,即 Prague Dependency Treebank-Consolidated 1.0(PDT-C 1.0),其中包含四个来自不同来源的捷克文数据集,可供自然语言处理任务和语言学研究使用,总共包含约 18 万句带有它们的词态、表面和深层语法标注,可供比较不同流派文本的跨语言研究。
本文介绍了关系机器学习中如何统计建模大型知识图谱,以预测世界中新的事实,包括潜在特征模型和图中可观察模式互补的统计关系建模方法,以及与文本信息抽取相结合,自动构建知识图谱的实践。
Mar, 2015
本文介绍了 UniRel,一种在两种常见的关系三元组提取数据集上表现更出色和计算效率更高的方法,该方法主要使用 Interaction Map 和 Transformer Block 在自然语言序列中联合编码实体和关系的表示。