低资源南亚语言中的多语言共指消解

COLINGFeb, 2024

低资源南亚语言中的多语言共指消解

Multilingual Coreference Resolution in Low-resource South Asian Languages

Ritwik Mishra, Pooja Desur, Rajiv Ratn Shah, Ponnurangam Kumaraguru

TL;DR通过使用现成的翻译和词对齐工具，我们引入了一个包含 31 种南亚语言的多语种共指解析翻译数据集（TransMuCoRes）。两个现成的共指解析模型使用 TransMuCoRes 与一份具有手工注释的印地语共指解析数据集的连接进行训练，最佳模型在印地语黄金集上的 LEA F1 得分和 CoNLL F1 得分分别为 64 和 68。此研究是首次在印地语黄金集上评估了一个端到端共指解析模型，并强调了当前共指评估指标在存在拆分先行词的数据集上的局限性，倡导开发更合适的评估指标。

Abstract

coreference resolution involves the task of identifying text spans within a discourse that pertain to the same real-world entity. While this task has been extensively explored in the English language, there has been a notable scarcity of publicly accessible resources and models for

coreference resolution south asian languages translated dataset multilingual encoders evaluation metrics

发现论文，激发创造

多语言指代消解共享任务的发现

本文概述了 CRAC 2022 研讨会上多语种共指消解任务的概况，采用公共数据集 CorefUD 1.0 为训练和评估数据，使用 CoNLL 得分作为主要评估指标，并比较了多个系统和竞争基线系统，获胜者系统的表现优于竞争基线 12 个百分点。

Sep, 2022

俄语轻量级核指代消解：基于分层语篇特征的方法

本研究提出了一种新方法，通过引入修辞信息到神经共指消解模型中，来明确捕获层次化语篇中的指代选择，并使用多语言实体感知语言模型 LUKE，在 RuCoCo-23 共指消解任务上评估了该方法的性能。实验表明，使用修辞距离的最佳模型在开发集 (74.6 % F1) 上排名第一，在测试集 (73.3 % F1) 上排名第二。希望我们的研究能够激发对于神经共指消解模型中引入语篇信息的进一步研究。

Jun, 2023

集成迁移学习用于多语言指代消解

本研究提出了一种基于集成方法和迁移学习的框架以及一种低成本的迁移学习方法，用于解决非英语语言的实体共指消解问题，并在 Arabic，Dutch 和 Spanish 三种语言上取得了新的最先进结果。

Jan, 2023

多方对话中多语言指代消解

本文提出 Multilingual Multiparty Coref (MMC) 数据集用于核心参照消解任务，通过注释的转录来提供其他语言 (中文和波斯语) 的银参照数据，在英文数据中，现有的模型在 MMC 上的表现相对较差，说明 MMC 具有比先前数据集更广泛的多方参照覆盖范围。在银数据上，我们发现在模拟零 - shot 跨语言环境方面，使用它进行数据增强和从头开始的训练都很成功。

Aug, 2022

探索通过通用注释进行多语言指代消解

基于 CorefUD 数据集和通用形态句法和共指注释，我们通过研究核心指代在不同语言、不同语体和不同层次上的特点，对 SotA 系统无法解决的最具挑战性情况进行错误分析，然后从通用形态句法注释中提取特征，并将这些特征集成到基线系统中，结果显示我们的最佳配置特征提高了 0.9% 的 F1 得分。

Oct, 2023

泰语指代消解数据集：Thai Coref

利用建立在 OntoNotes 基准之上进行了调整的 ThaiCoref 数据集，通过训练多语言编码器和跨语言转移技术，该研究在测试集上取得了 67.88% 的最佳 F1 得分，揭示了泰语独特的语言特征所带来的挑战。

Jun, 2024

端到端多语言指代消解与提及头预测

本文介绍了我们在 CRAC 2022 共享任务中用于多语言指代消解的方法，我们使用了最先进的端到端指代消解系统并进行了多语言联合训练，同时加入了头部预测和依赖信息集成，最终系统取得了第三名并且在其中两个数据集上表现最佳。

Sep, 2022

基于 Seq2Seq 转移系统的指代消解

本文提出一种基于文本到文本 (seq2seq) 模式的指代消解系统，它使用转移系统来预测提及和链接，使用多语言 T5 作为底层语言模型，在 CoNLL-2012 数据集上获得了 83.3 的 F1-score，远高于之前的最优结果；在 SemEval-2010 数据集上进行了零次训练、少次训练和有监督训练，对于所有五种测试语言，超过之前的最优结果。

Nov, 2022

ÚFAL CorPipe 在 CRAC 2022 的多语言模型对指代消解的效用

我们使用联合微调的方法，结合先进的预训练模型，成功地解决了 CRAC 2022 共享任务中的多语言指代消解问题，找到了一种足够大的编码器，提高了各数据集的表现，并提供了源代码。

Sep, 2022

评估和改进机器翻译模型的指代消解能力

本文评估了机器翻译 (MT) 模型从隐含信号中学习共指消解的能力，并探究了如何将共指消解模型的输出整合到 MT 模型中以提高翻译质量。研究结果表明，单语共指消解模型的性能远远优于 MT 模型。

Feb, 2023