EMNLPOct, 2023

印欧语系错误修正的大规模人工标注语料库 DISCO

TL;DR消除话语中填充词、重复和修正等不流畅元素的过程是后处理自动语音识别(ASR)输出、在下游语言理解任务之前的关键步骤。我们提供了一个高质量的人工标注的多语言不流畅纠正语料库,涵盖了四种重要的印欧语言:英语、印地语、德语和法语。在四种语言的全面结果分析中,我们获得了 97.55(英语)、94.29(印地语)、95.89(德语)和 92.97(法语)的 F1 得分。为了证明不流畅纠正对下游任务的益处,我们展示了与最先进的机器翻译(MT)系统结合使用时 BLEU 得分平均提高了 5.65 个点。我们在此处发布了运行实验的代码和我们的注释数据集。