Multi$^2$OIE: 基于多头注意力和 BERT 的多语言开放信息抽取
本文提出了一种基于计算机视觉中的物体检测算法启发的一种新型单遍 OpenIE 方法,并使用基于二分图匹配的无序损失和基于 Transformer 的编码器体系结构进行序列标记。 该方法更快速并在标准基准测试中表现出优异的性能。我们还在两种语言的零 - shot 设置中对其进行了多语言版本的评估,并在多语言 Re-OIE2016 上展示了性能提高 15%,使两种语言的 F1 值均达到 75%以上。
Jun, 2022
自然语言处理中的开放信息提取(OIE)通过引入预训练语言模型和语言特征,通过 Seq2Seq 预训练语言模型提升 OIE 架构性能,并在性能评估中获得了 24.9%、27.3% 和 14.9% 的改进。此外,还介绍了其他挑战,如利用语义依赖解析标签减少计算开销、创建干净的合成数据集以及探究 OIE 行为在结构化预测模型中的表现。
Mar, 2024
通过构建合适的推理环境,本文探索利用大型语言模型(LLMs)解决开放式信息抽取(OIE)问题,实验结果表明,相较于最先进的监督方法,我们的 6-shot 方法在标准 CaRB 基准上实现了 55.3 的 F1 分数,同时在 TACRED 和 ACE05 上实验结果显示,我们的方法可以自然地推广到其他信息抽取任务,并分别获得了 5.7 和 6.8 的 F1 分数提升。
Oct, 2023
本文介绍了一种新的基于预训练语言模型的开放信息抽取基准测试,并证明该基准测试可以通过将预训练语言模型转化为零样本抽取系统,充分检查模型中存在的开放关系信息。
Oct, 2022
本文介绍了一种基于神经网络的扩展模型 IMoJIE,该模型在 Open Information Extraction 任务中可以产生变化的、多样化的信息提取结果。与先前的基于规则的系统相比,该模型取得了 18 个 F1 分数的优势,也超越了基于 BERT 模型的强基线模型。
May, 2020
通过将 OpenIE 任务形式巧妙地转换为 T5 模型的预训练任务形式,并引入锚点的创新概念,OK-IE 显著减少了对大量训练数据的需求,消除了模型收敛速度慢的问题,实验结果显示,相较于之前的 SOTA 方法,OK-IE 仅需 1/100 的训练数据量(900 个实例)和 1/120 的训练时间(3 分钟)即可达到可比较的结果。
Oct, 2023
我们提出了一种名为 MT4CrossIE 的有效的多阶段调整框架,通过将语言特定知识注入共享模型中,增强跨语言开放信息提取,实验证明了聚合多个插拔式语言特定模块的重要性,以及 MT4CrossIE 在跨语言 OIE 中的有效性。
Aug, 2023
本文提出了一种新的 Open IE 算法,采用跨度模型替代传统序列标注法通过对训练数据和测试数据进行改进和优化,实现了在基准测试数据集中的最新最佳表现。
Jan, 2019
提出了一种名为 DualOIE 的新型生成式开放信息提取模型,通过实现双重任务同时从句子中提取三元组并将其转化为句子的形式,有效地从句子中提取复杂三元组,实验证明 DualOIE 在两个基准测试以及美团数据集上表现最佳,Meituan 平台上的在线 A/B 测试显示通过 DualOIE 提取的三元组在美团的搜索系统中可以获得 0.93% 的 QV-CTR 改进和 0.56% 的 UV-CTR 改进。
Jan, 2024