EMNLPOct, 2023

通过大型语言模型和有限状态解码约束改善长篇演讲翻译

TL;DR通过将大型语言模型(LLM)用于将长 ASR 转录分割成可独立翻译的片段,以最大化整体翻译质量,采用有限状态约束进行解码以消除无效输出,通过提示调整或微调发现 LLM 可适应包含 ASR 错误的转录,与现有自动标点基线相比,我们最佳的 LLM 在 9 个测试集的英语 - 德语、英语 - 西班牙语和英语 - 阿拉伯语 TED 演讲翻译中将平均 BLEU 提高了 2.9 个点,仅通过改进分隔。