分析开放信息抽取系统的误差
该论文使用众包方法评估两种最先进的开放信息抽取系统在 10 个不同学科的科学文本上的性能,发现 OIE 系统在科学文本上的表现明显劣于百科全书文本,在提供错误分析并建议减少错误的领域的同时,提出了一个句子和判断的语料库。
Feb, 2018
本文介绍了一项新的 Open Information Extraction (OIE) 数据集转换 QA-SRL 2.0 数据集生成 LSOIE 数据集,其规模是目前已有人工标注 OIE 数据集的 20 倍,并使用该数据集构建和评估了多个基准 OIE 模型,提供了未来改进该任务的基准。
Jan, 2021
通过构建合适的推理环境,本文探索利用大型语言模型(LLMs)解决开放式信息抽取(OIE)问题,实验结果表明,相较于最先进的监督方法,我们的 6-shot 方法在标准 CaRB 基准上实现了 55.3 的 F1 分数,同时在 TACRED 和 ACE05 上实验结果显示,我们的方法可以自然地推广到其他信息抽取任务,并分别获得了 5.7 和 6.8 的 F1 分数提升。
Oct, 2023
我们建立了一个公开信息提取的参考标准,解决了多个问题并生产了注释指南与评价脚本。在对七个系统进行比较后,我们发现 MinIE 表现最佳。
Sep, 2018
通过将 OpenIE 任务形式巧妙地转换为 T5 模型的预训练任务形式,并引入锚点的创新概念,OK-IE 显著减少了对大量训练数据的需求,消除了模型收敛速度慢的问题,实验结果显示,相较于之前的 SOTA 方法,OK-IE 仅需 1/100 的训练数据量(900 个实例)和 1/120 的训练时间(3 分钟)即可达到可比较的结果。
Oct, 2023
本文释放、描述和分析了一个名为 OPIEC 的 OIE 语料库,其中包含超过 340M 个三元组,是目前公开可用的最大的 OIE 语料库。我们发现,在 OPIEC 中存在的大多数实体之间的事实在 DBpedia 和 / 或 YAGO 中找不到。此外,OIE open relations 通常高度多义性。我们相信 OPIEC 语料库是未来自动知识库构建研究的有价值的资源。
Apr, 2019
自然语言处理中的开放信息提取(OIE)通过引入预训练语言模型和语言特征,通过 Seq2Seq 预训练语言模型提升 OIE 架构性能,并在性能评估中获得了 24.9%、27.3% 和 14.9% 的改进。此外,还介绍了其他挑战,如利用语义依赖解析标签减少计算开销、创建干净的合成数据集以及探究 OIE 行为在结构化预测模型中的表现。
Mar, 2024