SMDDH: 使用深度学习在印地文文本中进行单例提及检测
这篇论文提出了一种通过多任务学习方法学习单例以及实体类型和信息状态等特征的共指模型,在 OntoGUM 基准上取得了新的最高分(+2.7 分),并在多个领域的数据集上提高了鲁棒性(平均 + 2.3 分),可能是由于更大的指称检测的泛化能力和更多单例数据的利用所致。
Sep, 2023
通过将来自现有嵌套 NER 系统的预测提及与来自 OntoNotes 句法树的特征结合,我们在接近 OntoNotes 数据集中带有所有单例提及的情况下,实现了对黄金单例的 94%召回率。然后,我们提出了一个名为 SPLICE 的两步神经提及和共指解析系统,并在 OntoNotes 测试集和域外 OntoGUM 语料库的两种情况下将其性能与端到端方法进行比较。结果表明,重构的单例训练在 OntoNotes 中产生了与端到端系统相当的结果,同时提高了域外稳定性(+1.1 平均 F1)。我们对提及检测进行了错误分析,并探讨其对共指聚类的影响,发现提高精度可为解决共指链提供更实质性的益处。
Mar, 2024
本文提出了一种针对在线解码的指代消解方向,其针对包含对话在内的实时生成输入的场景,在每个对话轮次上,该模型接受一个话语和其过去的语境,然后查找当前话语中的提及以及它们的指代。该文章提出了基线和四个增量更新的模型,适应于提到链接范式的新设置,其中包括单一实例、说话人定位编码和跨轮次提及的情境化。在 Friends、OntoNotes 和 BOLT 这三个数据集上评估我们的方法,结果表明每个方面都带来了稳定的改进,我们最好的模型比基线高出 10%以上,是这个场景的一个有效系统。进一步分析突出了任务特点,例如解决提及回忆的重要性。
May, 2022
本文介绍了一种使用双仿射注意模型和联合最优化方法来改善端到端语义消解系统的方法,该方法在 CoNLL-2012 共享任务的英文测试集上实现了最先进的性能。
May, 2018
本文提出了一种针对 NLP 中需要汇总来自远处的同一实体的信息的情况的循环层,该层使用外部系统提取的指代注释连接属于同一簇的实体提及,并将其合并到最先进的阅读理解模型中,从而改善了 Wikihop、LAMBADA 和 bAbi 人工智能任务的性能,并且可在数据稀缺时获得大的收益。
Apr, 2018
通过使用现成的翻译和词对齐工具,我们引入了一个包含 31 种南亚语言的多语种共指解析翻译数据集(TransMuCoRes)。两个现成的共指解析模型使用 TransMuCoRes 与一份具有手工注释的印地语共指解析数据集的连接进行训练,最佳模型在印地语黄金集上的 LEA F1 得分和 CoNLL F1 得分分别为 64 和 68。此研究是首次在印地语黄金集上评估了一个端到端共指解析模型,并强调了当前共指评估指标在存在拆分先行词的数据集上的局限性,倡导开发更合适的评估指标。
Feb, 2024
本文探讨了利用提及检测在目标域中进行兼容性适应的方法来提高神经网络核心指称分辨率的效率,取得了 7-14%的通过提及注释来提高核心指称分辨率的平均 F1 值的改进。
Oct, 2022
使用数据和知识驱动的方法结合多语言语音数据来进行自动语音识别系统的多语言训练,并在低资源和中资源运用 DNN 的分层映射技术和多任务 DNN 模型,分别在印度语种中取得 9.66% ~ 27.24%不等的相对准确率提升。
Jan, 2022
本研究探讨了现有最佳表现的指代消解系统的端到端核心指代消解模型的两个组件:提及检测器和提及链接器,并分析它们的行为,强调了精度和召回率的平衡问题,以及精度检测器的困难以及链接器的改进空间,提出了有前途的下一步研究方向。
Sep, 2020