通过构建合适的推理环境,本文探索利用大型语言模型(LLMs)解决开放式信息抽取(OIE)问题,实验结果表明,相较于最先进的监督方法,我们的 6-shot 方法在标准 CaRB 基准上实现了 55.3 的 F1 分数,同时在 TACRED 和 ACE05 上实验结果显示,我们的方法可以自然地推广到其他信息抽取任务,并分别获得了 5.7 和 6.8 的 F1 分数提升。
Oct, 2023
通过提出各种上下文学习策略来增强大型语言模型的指示遵循能力,以及通过演示不确定性量化模块来增强生成关系的置信度,本论文评估了大型语言模型在改进开放信息抽取任务中的能力,并在三个开放信息抽取基准数据集上进行实验证明了我们的方法在数量和质量上能够与已建立的监督方法媲美。
Sep, 2023
通过将 OpenIE 任务形式巧妙地转换为 T5 模型的预训练任务形式,并引入锚点的创新概念,OK-IE 显著减少了对大量训练数据的需求,消除了模型收敛速度慢的问题,实验结果显示,相较于之前的 SOTA 方法,OK-IE 仅需 1/100 的训练数据量(900 个实例)和 1/120 的训练时间(3 分钟)即可达到可比较的结果。
自然语言处理中的开放信息提取(OIE)通过引入预训练语言模型和语言特征,通过 Seq2Seq 预训练语言模型提升 OIE 架构性能,并在性能评估中获得了 24.9%、27.3% 和 14.9% 的改进。此外,还介绍了其他挑战,如利用语义依赖解析标签减少计算开销、创建干净的合成数据集以及探究 OIE 行为在结构化预测模型中的表现。
Mar, 2024
本文提出了一种基于计算机视觉中的物体检测算法启发的一种新型单遍 OpenIE 方法,并使用基于二分图匹配的无序损失和基于 Transformer 的编码器体系结构进行序列标记。 该方法更快速并在标准基准测试中表现出优异的性能。我们还在两种语言的零 - shot 设置中对其进行了多语言版本的评估,并在多语言 Re-OIE2016 上展示了性能提高 15%,使两种语言的 F1 值均达到 75%以上。
Jun, 2022
本文介绍了针对开放信息抽取系统的基准测试,并进行了四种常见 OIE 系统的性能比较和错误类别影响分析,并提出了下一代 OIE 系统的重要研究方向。
Jul, 2017
本文提出了一个结合 BERT 和多头注意力机制的多重开放信息提取系统,应用于序列标注任务具有更高的计算效率,并在两个基准数据集上实现了最佳表现。另外,我们还应用于多语言开放信息提取,使用多语言 BERT 在没有目标语言训练数据的情况下优于其他多语言系统。
Sep, 2020
本文针对零样本情况下中文开源大型语言模型在信息抽取任务中的性能进行了综合调查和分析,同时通过少样本实验评估了这些模型的能力,并与 ChatGPT 等广泛认可的语言模型在信息抽取性能上进行了比较分析,旨在提供对现有中文开源大型语言模型在自然语言处理中信息抽取领域的优势、限制和潜在增强的洞察。
Jun, 2024
本文提出了一种新的 Open IE 算法,采用跨度模型替代传统序列标注法通过对训练数据和测试数据进行改进和优化,实现了在基准测试数据集中的最新最佳表现。
Jan, 2019
该论文使用众包方法评估两种最先进的开放信息抽取系统在 10 个不同学科的科学文本上的性能,发现 OIE 系统在科学文本上的表现明显劣于百科全书文本,在提供错误分析并建议减少错误的领域的同时,提出了一个句子和判断的语料库。
Feb, 2018