跨句远程监督关系抽取
本文提出了一种新的句子分布估计模型和全新的关系抽取器,通过较弱的远程监督假设以及两级强化学习模型选择正确标记的句子来解决嘈杂数据的影响,最终达到比基线模型更好的 n-ary 跨句子关系提取任务性能。
Sep, 2020
该研究提出了一种将文档级关系抽取分解成关系检测和参数分辨的方法,利用显式语篇建模和模块化自我监督来进行改进,并在生物医学阅读中进行了细致的评估,其方法优于以往的最先进技术。
Sep, 2021
通过联合训练关系分类器和变分自编码器,结合知识库的概念,实现了利用多任务的概率方法来促进远程监督关系提取,从而有望在 NLP 领域取得更好的性能与可解释性。
Apr, 2021
我们介绍了一种新颖的基于图的框架,用于缓解远程监督关系抽取中的关键挑战,并展示了其在生物医学数据领域的效果。特别地,我们提出了一种针对实体对引用的句子包的图视图,它可以通过信息传递的方式聚合与实体对相关的句子包中的信息。所提出的框架缓解了远程监督关系抽取中常见的噪声标注问题,并有效地整合了句子包内句子之间的相互依赖关系。对两个大规模生物医学关系数据集和广泛使用的 NYT 数据集的大量实验证明,我们提出的框架在生物医学远程监督关系抽取方面明显优于现有的方法,同时在一般文本挖掘领域的关系抽取方面也具备出色的性能。
Oct, 2023
应用引导远程监督方法创建了一个包含超过 8 万个实例和 9 种关系类型的德语生物关系抽取数据集,同时还创建了一个手动注释的用于评估模型的数据集,并在自动创建的数据集上训练了几种先进机器学习模型和进行多语言和跨语言实验。
Mar, 2024
研究利用深度强化学习策略生成假阳性指标解决远程监督产生的噪声,进而将它们分配为负面样本以解决误报问题,实验表明该方法显著提高了远程监督方法的性能。
May, 2018
提出了高效的多监督关系抽取方法,通过融合远程监督和专家监督选择信息丰富的文档子集,并利用多方监督排名损失训练模型,以提高模型性能并具有较高的时间效率。
Jul, 2024
本文聚焦于关系抽取,提出假设:句子中关键语义信息对实体关系抽取起着关键作用,通过内部注意机制提取句子内细粒度的语义特征,证明该关系抽取模型比已有方法具有更优的准确率和召回率。
Feb, 2023
使用句法分析和预先训练的词嵌入技术,在缺乏任何形式监督的情况下,提取少量精确关系,用于注释更大的语料库,并在生物医学领域的四个数据集上通过微调预先训练的 BERT 模型进行关系抽取实验表明,与无监督关系提取的两个简单的基线相比,我们的方法显著优于两个简单的基线,即使不使用任何监督,也获得了三个数据集中的最先进结果之一;更重要的是,我们证明了使用噪声数据可以成功地对大型预先训练的语言模型进行微调,而不是依赖于黄金数据进行微调。
Nov, 2019
通过结合学习表示和结构化学习的优点,我们提出了一种最小监督关系抽取方法,可以在知识库提供的命题级监督下,准确地预测句子级别的关系提及。通过在学习期间明确地推理有关缺失数据,我们的方法能够在缓解远程监督的标签噪声的同时进行大规模的一维卷积神经网络训练。我们的方法在最小监督下的句子关系抽取方面实现了最新的成果,优于许多基线方法,包括仅使用神经模型的注意层的竞争方法。
Mar, 2019