PreCo:面向代词消解的学前词汇大规模数据集
利用建立在 OntoNotes 基准之上进行了调整的 ThaiCoref 数据集,通过训练多语言编码器和跨语言转移技术,该研究在测试集上取得了 67.88% 的最佳 F1 得分,揭示了泰语独特的语言特征所带来的挑战。
Jun, 2024
本文探讨基于单个数据集训练的核心参考消解(Coreference resolution,COREF)学术神经模型的可迁移性,通过评估在多个包含不同注释指南和领域的数据集上的表现来建立新的性能基准。
Apr, 2021
该研究探讨了当前代表性的共指消解模型中的误差与不同数据集、核心共指类型的操作方式有关的程度,并对现有模型在各种共指类型下的表现进行了分类,结果表明在不同共指类型下的表现存在差异,这可以为未来的核心共指解析模型开发提供参考。
Mar, 2023
本文提出了一个新的数据集,其中包含 100 部英文小说的 29,103 个指代注释,涵盖了 210,532 个标记。这个数据集对比以前的数据集不同的地方在于包含了平均长度为 2,105.3 个单词的文档,是其他基准数据集的四倍长(OntoNotes 为 463.7),并且包含了文学中常见的难度指代问题的示例。这个数据集可以评估指代消解任务的跨领域性能,并分析长距离文档内指代的特征。
Dec, 2019
提供一个新的众包数据集,用于多句理解文本,涉及复杂的指代消解,旨在评估阅读模型解决指代消解的能力,与现有的基准模型相比,该模型表现显著更好。
Aug, 2019
通过使用现成的翻译和词对齐工具,我们引入了一个包含 31 种南亚语言的多语种共指解析翻译数据集(TransMuCoRes)。两个现成的共指解析模型使用 TransMuCoRes 与一份具有手工注释的印地语共指解析数据集的连接进行训练,最佳模型在印地语黄金集上的 LEA F1 得分和 CoNLL F1 得分分别为 64 和 68。此研究是首次在印地语黄金集上评估了一个端到端共指解析模型,并强调了当前共指评估指标在存在拆分先行词的数据集上的局限性,倡导开发更合适的评估指标。
Feb, 2024
本研究通过引入大小适中,精度高的 WikiCREM 数据集以及基于语言模型的方法,对代词消岐问题进行了研究,并在 GAP、DPR、WNLI、PDP、WinoBias 和 WinoGender 等七个数据集上取得优秀的表现。同时,我们提供了可直接使用的模型以解决代词消岐问题。
Aug, 2019
本文概述了 CRAC 2022 研讨会上多语种共指消解任务的概况,采用公共数据集 CorefUD 1.0 为训练和评估数据,使用 CoNLL 得分作为主要评估指标,并比较了多个系统和竞争基线系统,获胜者系统的表现优于竞争基线 12 个百分点。
Sep, 2022
本文提出了一个简单而有效的跨语言理解模型来利用平行数据中的指代知识,该模型在 OntoNotes 5.0 英语数据集上使用 9 种不同的合成平行数据集实现了一致的提升,最高可达 1.74 个百分点。
May, 2023
本文介绍了一种模拟人类阅读过程并利用实体的指代信息来增强预训练语言模型中的词嵌入以提高模型性能的方法,头两种微调方式,即在预训练模型后添加额外的编码器层以关注实体的指代提及或构建关系图卷积网络来建模实体间的关系。结果表明,在微调阶段明确加入指代信息的方法比在预训练中加入指代信息的方法表现更好。
Oct, 2021