基于向量化词汇 - 句法模式的金融文件关系抽取的最近邻搜索
介绍一种使用 $k$ 最近邻进行增强的关系提取方法 $k$NN-RE,可以在测试时间通过最近邻搜索查阅训练关系,并提供了一种简单却有效的方法来解决由于语言复杂性和数据稀疏性引起的隐式表达和长尾关系类型的两个问题,并且观察到 $k$NN-RE 是利用远程监督(DS)数据进行 RE 的有效方法。在 ACE05、SciERC 和 Wiki80 等多种受控制的 RE 数据集上,提出的 $k$NN-RE 取得了最高水平的性能,并在允许使用 DS 的情况下在 i2b2 和 Wiki80 数据集上优于迄今为止最好的模型。
Oct, 2022
本文提出了一种基于模式的新模型,神经潜在关系分析(NLRA),旨在捕捉向量空间中词汇关系的语义,可以泛化词对和词汇 - 语法模式的共现,同时解决了传统基于模式的模型中遇到的严重数据稀疏性问题,实验结果表明 NLRA 在测量关系相似度方面的表现优于先前的基于模式的模型,同时与矢量偏移模型相结合时可以达到与利用其他语义关系数据的现有模型相当的性能。
Sep, 2018
本论文提出一种学习关系原型的通用方法来处理关系抽取中的长尾问题,并应用于基于共现图的嵌入学习来优化实体对与对应原型间的距离,并在两个数据集上进行了广泛实验以验证其有效性。
Nov, 2020
本文探讨了利用 GPT-3 和 Flan-T5 等大型语言模型来进行关系提取(RE)的问题,通过将关系线性化生成目标字符串的方法进行了序列到序列的任务处理,通过人工评估的方式,在不同程度的监督下评估了它们在标准 RE 任务中的表现,发现通过 GPT-3 进行的少量提示与现有完全监督模型大致相当,而使用 Chain-of-Thought 风格的解释进一步监督和微调后,该模型产生了最优结果。
May, 2023
本文介绍了基于句法结构和语义之间的亲缘关系,并据此进行中间预训练的关系抽取模型。通过使用相关句法关系进行预训练,不需要额外标注的情况下,该模型在六个跨域设置中有五个比基线模型表现更好。
May, 2023
本文提出了一种新的 DSRE-NLI 框架,该框架利用现有知识库的远程监督和预训练语言模型的间接监督,通过半自动关系语言表达机制为间接监督提供能量,进而巩固远程注释以便于多分类 RE 模型,并通过数据整合策略实现训练数据的质量提高,大量实验证明该框架显著提高了远程监督 RE 基准数据集的性能(高达 7.73%的 F1)
Jul, 2022
本文提出了一种用于快速启动训练数据集的过程,利用搜索引擎在句法图上获取正例,我们将此技术应用于 TACRED 和 DocRED 的关系,其结果模型与手动注释数据和远程监督方法所训练的模型相比具有竞争力,并且优于使用 NLG 数据增强技术所训练模型的模型。扩展基于搜索的方法使用 NLG 方法可以进一步提高结果。
Feb, 2021
通过引入 AutoRE 模型和 RHF (Relation-Head-Facts) 的新型 RE 提取范式,结合 QLoRA (Parameters Efficient Fine Tuning) 算法构建了一个易于扩展的 DocRE 框架,在 RE-DocRED 数据集上展现了最佳性能,超过 dev 和 test 集合上分别为 TAG 10.03% 和 9.03% 的最新结果。
Mar, 2024
关系抽取(RE)是自然语言处理的基础任务,本文综述了四个阶段的 RE 方法,包括模式匹配、统计、神经网络和大型语言模型,并着重介绍了现代 RE 方法的远程监控和去噪预训练方法。
Jul, 2022