语义约束的多层标注:共指案例
本文提出了一种基于神经网络结构的跨文档匹配方法,能够有效地进行实体和事件的引用关系识别,其中考虑了实体和事件的上下文以及谓词 - 参数结构等因素。该方法在 ECB + 语料库上的表现优于之前的状态 - 最优事件 - coreference 模型,并提供了该语料库上的第一个实体 - coreference 结果。
Jun, 2019
本文提出了一种针对 NLP 中需要汇总来自远处的同一实体的信息的情况的循环层,该层使用外部系统提取的指代注释连接属于同一簇的实体提及,并将其合并到最先进的阅读理解模型中,从而改善了 Wikihop、LAMBADA 和 bAbi 人工智能任务的性能,并且可在数据稀缺时获得大的收益。
Apr, 2018
基于 CorefUD 数据集和通用形态句法和共指注释,我们通过研究核心指代在不同语言、不同语体和不同层次上的特点,对 SotA 系统无法解决的最具挑战性情况进行错误分析,然后从通用形态句法注释中提取特征,并将这些特征集成到基线系统中,结果显示我们的最佳配置特征提高了 0.9% 的 F1 得分。
Oct, 2023
该研究论文提出了一种通过考虑近似一致性和桥接关系来扩展传统身份关系范围的新闻文章共指注释方案,并详细描述了如何使用相应的注释工具 Inception 来设置,如何注释新闻文章中的实体,如何将它们与不同的共指关系联系起来,并链接到 Wikidata 的全球知识图谱。本文讨论了这种多层次的注释方法在媒体偏见问题中的应用,并提供了一种创建多样性跨文档共指语料库的方法,该方法可以用于通过词选择和标注来分析媒体偏见。
Oct, 2023
本文提出一种将有效的顺序预测范例用于跨文档指代消解的新模型,通过增量式将提及点组合成集群表征,并预测提及点与已构建的集群之间的链接,近似高阶模型,既成为实体和事件指代消解领域中具有竞争力的解决方案,也提供了不同输入和表示类型在对指代消解过程中的重要性的新见解。
Apr, 2021
本文探讨了两种语言处理任务的潜在协同作用:识别谓词释义和事件共指解析。作者通过使用事件共指数据集的注释来重新评分启发式抽取的谓词释义,实现了 18 个平均精度点的提升,并将同样的重新排序方法应用于事件共指解析模型中,进一步提高了模型的性能。研究结果揭示了一种有效的利用数据和模型相互受益的途径。
Apr, 2020
这是 Universal Conceptual Cognitive Annotation(UCCA)注释手册,特别是基础层的注释说明。UCCA 是一种基于语言类型学原理的基于图形的语义注释方案,其已经应用于多种语言,主要在英语中给出示例。本教程的进一步资源可以在项目主页上找到。
Dec, 2020
本文介绍了第一个端到端的共指消解模型,并展示了它在不使用句法分析器或手工制作的提及检测器的情况下,明显优于所有以前的工作。模型的关键思想是直接将文档中的所有跨度作为可能的提及,并学习每个可能的先行词的分布。模型计算跨度嵌入,将依赖于上下文的边界表示与定位注意机制相结合。它被训练成最大化核对聚类中的黄金先行跨度的边际可能性,并分解以便于对可能存在的提及进行积极修剪。实验表明,尽管这是第一个成功训练不使用外部资源的方法,它仍可以在 OntoNotes 基准测试上获得 1.5 F1 分数的增益,并使用 5 个模型集合获得 3.1 F1 分数的提升。
Jul, 2017
本文提出了基于演员 - 评论家学习的混合规则 - 神经共指消解系统,它通过利用启发式规则和神经共指消解模型的优点来实现更好的共指性能。此端到端系统还可以通过使用联合训练算法执行提及检测和消解,并使用 BERT 模型生成输入跨度表示。我们的模型在 CoNLL-2012 Shared Task 英文测试集上使用 BERT 跨度表示实现了最新的最佳性能。
Dec, 2022
在 FrameNet 范例下,本文提出了一种基于注释投射的通用框架,它可以相对廉价地自动引发新语言中的角色语义标注。该框架利用了词汇和句法信息来设计投影模型,实验结果表明可以在英汉平行语料库中自动诱导具有高准确度的语义角色标注。
Jan, 2014