该研究指出跨文档指代消解的常见评估方法在假设情境方面过于宽松,导致结果夸大。为此,提出两种评估方法论原则,一是应该根据预测的提及而非黄金提及来评估模型,二是模型不应利用合成的 ECB + 数据集的主题结构,以便模型面对词汇歧义挑战,实证结果显示我们更为真实的评估方法对于一个竞争模型的影响巨大,并导致 33 的 F1 得分下降,从而解决该问题。
Jun, 2021
本文提出了一个新的数据集,其中包含 100 部英文小说的 29,103 个指代注释,涵盖了 210,532 个标记。这个数据集对比以前的数据集不同的地方在于包含了平均长度为 2,105.3 个单词的文档,是其他基准数据集的四倍长(OntoNotes 为 463.7),并且包含了文学中常见的难度指代问题的示例。这个数据集可以评估指代消解任务的跨领域性能,并分析长距离文档内指代的特征。
Dec, 2019
本研究提出了实用的评估方法,对跨文档共指消解问题进行了基础性分析,构建了第一种端到端模型,并在该任务中取得了比现有技术更好的效果。
Sep, 2020
核指关系注释和解决是计算文学研究的重要组成部分,本研究提出了一种基于语言模型的 seq2seq 系统,能够直接生成具有类似 markdown 标注的输入句子的副本,用于解决核指关系注释和解决问题,并通过多个训练模型和工作流程进行评估和发布。
Jan, 2024
本文提出了一个使用弱监督技术的解析图片故事中指代关系的新技术,建立了包含核心链的图像文本数据集,并证明了该技术对提高图像叙事的效果。
Nov, 2022
我们的研究表明:参考文本的自由度量在评估生成文本方面存在固有的偏见和限制,因此建议将其作为分析和理解模型行为的诊断工具,而不是评估模型任务表现的指标。
Oct, 2022
当前文献关注文学小说中引文归属问题,以引文归属为中心,研究四个相互关联的子任务:人物识别、指代消解、引文辨别和说话人归属。在大量注释了核心指代和引文的文学小说数据集(项目言对小说语料库)上评估了最先进的模型,并针对说话人归属任务进行训练和评估,表明一个简单的连续预测模型具有与最先进模型相当的准确性分数。
Jul, 2023
通过使用基于潜在嵌入空间的实体 / 事件建模和只对难负例进行训练的分类器,以及在多个语料库上训练,对跨文档基准测试进行核心参考解决方案的分类效果进行了改进。
Oct, 2021
通过提出一系列的评估度量,本文对语义相似度度量的特征进行自动和可解释的评估,从而实现了对不同语义相似度度量方法行为的合理比较。通过对经典方法和最新方法的评估,我们的度量揭示了最近开发的度量在识别语义分布不匹配方面变得更好,而经典度量则对表面文本水平的扰动更加敏感。
提供一个新的众包数据集,用于多句理解文本,涉及复杂的指代消解,旨在评估阅读模型解决指代消解的能力,与现有的基准模型相比,该模型表现显著更好。
Aug, 2019