ACLJul, 2023

再探跨语言摘要:基于语料库的研究与改进注释的新基准

TL;DR现有的跨语言摘要(CLS)工作往往通过直接翻译预注摘要来构建 CLS 语料库,可能会包含摘要和翻译过程中的错误。为了解决这个问题,我们提出了 ConvSumX,这是一个跨语言对话摘要基准,通过一个新的注释模式明确考虑源输入上下文。ConvSumX 包括两个子任务,涵盖了三个不同的语言方向。我们对 ConvSumX 和三个广泛使用的手动注释的 CLS 语料库进行了详尽的分析,实验证明 ConvSumX 更加忠实于输入文本。此外,基于相同的观点,我们提出了一个 2 步方法,该方法将对话和摘要作为输入以模拟人工注释过程。实验结果表明,2 步方法在 ConvSumX 上超过了强基线模型,并在自动和人工评估下显示出优势。分析表明,源输入文本和摘要对于建模跨语言摘要至关重要。