通过多任务学习解决科学信息提取中的标签变异问题
本研究提出了一个多任务学习框架 SciIE 来识别、分类科学文章中的实体、关系和共指链接,并使用跨句子的共指链接来减少任务之间的级联错误。在科学信息提取方面,多任务模型效果优于以往模型,同时支持构建科学知识图谱分析科学文献。
Aug, 2018
从科学论文中提取关键信息有助于研究人员提高工作效率并加快科学进展的速度。在过去几年里,科学信息提取(SciIE)的研究见证了数个新系统和基准的发布。然而,现有以论文为中心的数据集主要只关注论文的特定部分(例如摘要),且为单模态(即只有文本或表格),这是因为处理复杂性和高昂的注释费用所导致。此外,核心信息可能存在于文本或表格中,或者跨越二者。为弥补这一数据可用性的差距并实现跨模态信息提取,同时减轻标注成本,我们提出了一个半监督的流程,用于迭代地对文本中的实体、以及表格中的实体和关系进行注释。基于此流程,我们为科学界提供了一些新资源,包括一个高质量的基准、一个大型语料库和一个半监督的注释流程。我们进一步报告了最先进的信息提取模型在提出的基准数据集上的性能作为一个基准。最后,我们探索了像 ChatGPT 这样的大型语言模型在当前任务中的潜在能力。我们的新数据集、结果和分析验证了半监督流程的有效性和效率,同时我们也讨论了其剩余的局限性。
Nov, 2023
本文通过将问题建模为序列标注,并利用半监督学习方法和数据选择方案,提出了一个基于神经标注模型的关键短语提取和分类算法,该算法在 2017 年 SemEval 科学信息抽取任务中明显优于现有信息抽取方法。
Aug, 2017
我们提出了一个称为 MetaIE 的新框架,通过学习提取 “重要信息” 来构建一个小型元模型,使得这个元模型可以有效和高效地适应各种信息提取任务,在少样本适应设置下获得更好的性能。
Mar, 2024
本研究提出了一种基于正则化的迁移学习方法,通过指导图解码器进行信息提取(IE)。我们构建了一个指令池,用于各种 IE 任务的数据集,然后提出了一个指导图解码器。通过基于相应指令将各种复杂结构解码为图的方式,我们可以学习和转移与现有数据集共享的常见知识到具有新标签的新数据集中。此外,为了缓解各种 IE 任务中的标签一致性问题,我们引入了一种任务特定的正则化策略,不更新具有 “相反方向” 的两个任务的梯度。我们对包括四个 IE 任务的 12 个数据集进行了大量实验,结果证明了我们提出方法的巨大优势。
Mar, 2024
本文针对信息提取系统在不同任务之间交互存在困难的问题,提出了一种易于模仿人类学习过程的三阶段联合学习框架,该框架可以使模型更好地学习不同任务之间的知识和提高其泛化能力, 在四项 IE 任务上进行的广泛实验表明了本框架的有效性。
May, 2023
这篇综述研究对最近的文档级信息抽取文献进行了系统回顾,通过与当前最先进的算法进行彻底的错误分析,确定它们的局限性以及文档级信息抽取任务的剩余挑战,包括标签误差、实体关联解析和缺乏推理,严重影响文档级信息抽取的性能。本综述的目标是为 NLP 研究人员提供更多见解,帮助进一步提高文档级信息抽取的性能。
Sep, 2023
本文提出了一种基于统一语义匹配框架的信息提取方法,解决了传统方法因具体任务需定制模型且仅能适用于有见过的数据集的问题,通过对信息提取进行结构化和概念化两个基本能力的分离并引入三个统一的标记链接操作,在 4 个 IE 任务中达到了最先进的性能并表现出了强大的泛化能力。
Jan, 2023
本文研究了利用低资源信息抽取(LRIE)的方法,实现从未标注数据中学习信息抽取任务。我们提出了一种名为 Gradient Imitation Reinforcement Learning(GIRL))的方法,使用强化学习方法来鼓励伪标签数据模仿有标签数据的梯度下降方向,从而在低资源情况下,提高命名实体识别、关系提取和事件提取任务的性能。
Nov, 2022