COLINGFeb, 2024

低资源南亚语言中的多语言共指消解

TL;DR通过使用现成的翻译和词对齐工具,我们引入了一个包含 31 种南亚语言的多语种共指解析翻译数据集(TransMuCoRes)。两个现成的共指解析模型使用 TransMuCoRes 与一份具有手工注释的印地语共指解析数据集的连接进行训练,最佳模型在印地语黄金集上的 LEA F1 得分和 CoNLL F1 得分分别为 64 和 68。此研究是首次在印地语黄金集上评估了一个端到端共指解析模型,并强调了当前共指评估指标在存在拆分先行词的数据集上的局限性,倡导开发更合适的评估指标。