WiRe57:一个开放信息提取的细粒度基准测试
引入了一种为大型语言模型定制的细粒度信息抽取基准数据集,通过评估发现编码器 - 解码器模型在泛化到未见过的信息类型方面表现良好,而 ChatGPT 对于新任务形式具有更大的适应性。结果还表明,性能不仅仅取决于模型规模,还强调了架构、数据多样性和学习技术的重要性。这项工作为在信息提取中更精细、更灵活地利用大型语言模型铺平了道路。
Oct, 2023
本研究提出了一种 Open IE 推理方法,利用最近提出的支持图优化框架进行 QA,从而使得可以更有效地处理所提出的方法中所述的多种难度级别的复杂问题。同时本方法不依赖于手动策划的知识。
Apr, 2017
通过将 OpenIE 任务形式巧妙地转换为 T5 模型的预训练任务形式,并引入锚点的创新概念,OK-IE 显著减少了对大量训练数据的需求,消除了模型收敛速度慢的问题,实验结果显示,相较于之前的 SOTA 方法,OK-IE 仅需 1/100 的训练数据量(900 个实例)和 1/120 的训练时间(3 分钟)即可达到可比较的结果。
Oct, 2023
研究致力于解决现代神经 OpenIE 系统在提取信息时追求高覆盖率而忽视紧凑性的问题,提出了使用新型管道方法生成具有重叠成分的紧凑产物的 OpenIE 系统 CompactIE,并通过处理现有基准测试数据获得紧凑的提取,实验表明它比之前的系统找到了 1.5x-2x 更多的紧凑提取,并确立了新的 OpenIE 性能最佳状态。
May, 2022
本文提出了 WebIE 数据集,其中包括 1.6M 个句子及其详细注释。基于此数据集,我们评估了基于生成模型的信息提取模型的跨域和跨语言性能,并提出了三种训练策略。我们的实验表明,实体链接方式得到明显提高。
May, 2023
本文系统综述了 2007 年至 2022 年间的开放信息提取技术,提出了基于信息来源的新分类方法,并总结了三种主要方法、当前流行的数据集和模型评估指标,展示了数据集、信息来源、输出形式、方法和评估指标等方面的未来发展方向。
Aug, 2022