分析开放信息抽取系统的误差

EMNLPJul, 2017

Analysing Errors of Open Information Extraction Systems

PDF

Rudolf Schneider, Tom Oberhauser, Tobias Klatt, Felix A. Gers, Alexander Löser

TL;DR本文介绍了针对开放信息抽取系统的基准测试，并进行了四种常见 OIE 系统的性能比较和错误类别影响分析，并提出了下一代 OIE 系统的重要研究方向。

Abstract

We report results on benchmarking open information extraction (OIE) systems using RelVis, a toolkit for benchmarking →

open information extraction benchmarking natural language processing machine learning evaluation

发现论文，激发创造

科学文本中的开放信息抽取：一个评估

该论文使用众包方法评估两种最先进的开放信息抽取系统在 10 个不同学科的科学文本上的性能，发现 OIE 系统在科学文本上的表现明显劣于百科全书文本，在提供错误分析并建议减少错误的领域的同时，提出了一个句子和判断的语料库。

Feb, 2018

开放信息提取

本文概述了两代 Open IE 系统，包括其优点、弱点和应用范围。第二代系统在深度语言学分析下，通过动词短语或从句提取最常见的关系类型，并获得比第一代系统更高的性能。

Jul, 2016

越南开放信息提取

本研究提出了一种基于从句分析方法的越南语开放信息提取系统，实验结果表明，该系统的精确度达到了 83.71％。

Jan, 2018

LSOIE：一个用于监督式开放式信息抽取的大规模数据集

本文介绍了一项新的 Open Information Extraction (OIE) 数据集转换 QA-SRL 2.0 数据集生成 LSOIE 数据集，其规模是目前已有人工标注 OIE 数据集的 20 倍，并使用该数据集构建和评估了多个基准 OIE 模型，提供了未来改进该任务的基准。

Jan, 2021

利用大型语言模型和一致的推理环境掌握开放信息提取任务

通过构建合适的推理环境，本文探索利用大型语言模型（LLMs）解决开放式信息抽取（OIE）问题，实验结果表明，相较于最先进的监督方法，我们的 6-shot 方法在标准 CaRB 基准上实现了 55.3 的 F1 分数，同时在 TACRED 和 ACE05 上实验结果显示，我们的方法可以自然地推广到其他信息抽取任务，并分别获得了 5.7 和 6.8 的 F1 分数提升。

Oct, 2023

WiRe57：一个开放信息提取的细粒度基准测试

我们建立了一个公开信息提取的参考标准，解决了多个问题并生产了注释指南与评价脚本。在对七个系统进行比较后，我们发现 MinIE 表现最佳。

Sep, 2018

通过迭代排名感知学习提高开放式信息提取

该研究提出一种方法，通过增加二进制分类损失和迭代学习过程来校准开放信息提取系统的置信度，并在 OIE2016 上的实验证明了该方法的有效性。

May, 2019

基于预训练语言模型的高效开放信息抽取数据学习

通过将 OpenIE 任务形式巧妙地转换为 T5 模型的预训练任务形式，并引入锚点的创新概念，OK-IE 显著减少了对大量训练数据的需求，消除了模型收敛速度慢的问题，实验结果显示，相较于之前的 SOTA 方法，OK-IE 仅需 1/100 的训练数据量（900 个实例）和 1/120 的训练时间（3 分钟）即可达到可比较的结果。

Oct, 2023

OPIEC：一个开放的信息提取语料库

本文释放、描述和分析了一个名为 OPIEC 的 OIE 语料库，其中包含超过 340M 个三元组，是目前公开可用的最大的 OIE 语料库。我们发现，在 OPIEC 中存在的大多数实体之间的事实在 DBpedia 和 / 或 YAGO 中找不到。此外，OIE open relations 通常高度多义性。我们相信 OPIEC 语料库是未来自动知识库构建研究的有价值的资源。

Apr, 2019

利用语言增强的嵌入技术进行开放信息抽取

自然语言处理中的开放信息提取（OIE）通过引入预训练语言模型和语言特征，通过 Seq2Seq 预训练语言模型提升 OIE 架构性能，并在性能评估中获得了 24.9%、27.3% 和 14.9% 的改进。此外，还介绍了其他挑战，如利用语义依赖解析标签减少计算开销、创建干净的合成数据集以及探究 OIE 行为在结构化预测模型中的表现。

Mar, 2024