核指解析模型的有控重评

COLINGMar, 2024

A Controlled Reevaluation of Coreference Resolution Models

Ian Porada, Xiyuan Zou, Jackie Chi Kit Cheung

TL;DR通过系统评估五个核心指代消解模型并控制每个模型使用的预训练语言模型，我们发现在语言模型大小相同的情况下，基于编码器的核心指代消解模型在准确性和推理速度方面优于更近期的基于解码器的模型，并且我们测试的最古老的核心指代消解模型在跨领域文本体裁中表现最好。最后，我们得出结论：控制语言模型的选择可以减少过去五年间 F1 分数的增长，尽管无法完全消除该增长。

Abstract

All state-of-the-art coreference resolution (CR) models involve finetuning a pretrained language model. Whether the superior performance o

state-of-the-art coreference resolution language model encoder-based cr models f1 score

发现论文，激发创造

ÚFAL CorPipe 在 CRAC 2022 的多语言模型对指代消解的效用

我们使用联合微调的方法，结合先进的预训练模型，成功地解决了 CRAC 2022 共享任务中的多语言指代消解问题，找到了一种足够大的编码器，提高了各数据集的表现，并提供了源代码。

Sep, 2022

端到端神经指代消解再探：一个简单且有效的基准线

本文介绍了一个基于 Transformer 预训练语言模型的简单而有效的代替神经指代消解模型的 baseline，证明合理简化已有模型可以取得与复杂模型相媲美的性能表现。

Jul, 2021

端到端多语言指代消解与提及头预测

本文介绍了我们在 CRAC 2022 共享任务中用于多语言指代消解的方法，我们使用了最先进的端到端指代消解系统并进行了多语言联合训练，同时加入了头部预测和依赖信息集成，最终系统取得了第三名并且在其中两个数据集上表现最佳。

Sep, 2022

多语言指代消解共享任务的发现

本文概述了 CRAC 2022 研讨会上多语种共指消解任务的概况，采用公共数据集 CorefUD 1.0 为训练和评估数据，使用 CoNLL 得分作为主要评估指标，并比较了多个系统和竞争基线系统，获胜者系统的表现优于竞争基线 12 个百分点。

Sep, 2022

参考生成模型：如何经受时间的考验？

近年来，许多自然语言处理（NLP）的研究主要关注于性能改进。本文通过在上下文中生成指代表达式（REG-in-context）的任务作为案例研究，聚焦于 NLP 的语言和科学方面。我们对 GREC 进行分析，这是一个十多年前在英语中解决这个主题的多样共享任务的综合数据集。我们研究了模型在更现实的数据集上和使用更先进方法评估时的表现。我们通过不同评估指标和特征选择实验来测试这些模型。我们得出结论，GREC 不能再被视为可靠评估模型仿真人类参考生成能力的工具，因为结果受到语料库和评估指标选项的极大影响。我们的结果还表明，预训练语言模型对语料库的选择不太依赖，相比传统机器学习模型更能提供更强大的类别预测。

Jul, 2023

英波斯语内指消解综述

该研究综述了核指消解领域的现有语料库和评估指标，提供了基于规则的方法到最新的深度学习技术的核指算法概述，并调查了波斯语的核指消解和代词消解系统。

Nov, 2022

微调语言模型以更好地处理方面级情感分类中的指代消解

本文介绍了一种利用 Aspect Level Sentiment Classification (ALSC) 分析产品评论中特定方面的方法，并针对 Coreference Resolution (CR) 在 LLMs 中表现欠佳的情况，提出了一种基于高度推理任务的微调框架以提高 LLMs 性能，并发布了一份新的数据集以便在 ALSC 中针对 CR 进行研究。

Jul, 2023

评估和改进机器翻译模型的指代消解能力

本文评估了机器翻译 (MT) 模型从隐含信号中学习共指消解的能力，并探究了如何将共指消解模型的输出整合到 MT 模型中以提高翻译质量。研究结果表明，单语共指消解模型的性能远远优于 MT 模型。

Feb, 2023

追溯起源：具有共指关注的机器阅读理解

本文介绍了一种模拟人类阅读过程并利用实体的指代信息来增强预训练语言模型中的词嵌入以提高模型性能的方法，头两种微调方式，即在预训练模型后添加额外的编码器层以关注实体的指代提及或构建关系图卷积网络来建模实体间的关系。结果表明，在微调阶段明确加入指代信息的方法比在预训练中加入指代信息的方法表现更好。

Oct, 2021

跨文档指代消解的现实评估原则

该研究指出跨文档指代消解的常见评估方法在假设情境方面过于宽松，导致结果夸大。为此，提出两种评估方法论原则，一是应该根据预测的提及而非黄金提及来评估模型，二是模型不应利用合成的 ECB + 数据集的主题结构，以便模型面对词汇歧义挑战，实证结果显示我们更为真实的评估方法对于一个竞争模型的影响巨大，并导致 33 的 F1 得分下降，从而解决该问题。

Jun, 2021