通过大型语言模型和有限状态解码约束改善长篇演讲翻译

EMNLPOct, 2023

通过大型语言模型和有限状态解码约束改善长篇演讲翻译

Improving Long-form Speech Translation through Segmentation with Large Language Models and Finite State Decoding Constraints

PDF

Arya D. McCarthy, Hao Zhang, Shankar Kumar, Felix Stahlberg, Ke Wu

TL;DR通过将大型语言模型（LLM）用于将长 ASR 转录分割成可独立翻译的片段，以最大化整体翻译质量，采用有限状态约束进行解码以消除无效输出，通过提示调整或微调发现 LLM 可适应包含 ASR 错误的转录，与现有自动标点基线相比，我们最佳的 LLM 在 9 个测试集的英语 - 德语、英语 - 西班牙语和英语 - 阿拉伯语 TED 演讲翻译中将平均 BLEU 提高了 2.9 个点，仅通过改进分隔。

Abstract

One challenge in spoken language translation is that plenty of spoken content is long-form, but short units are necessary for obtaining high-quality translations. To address this mismatch, we adapt large language models

spoken language translation large language models asr transcripts finite-state constraints prompt-tuning

发现论文，激发创造

利用大型语言模型改进长篇口语翻译

本研究旨在通过微调大型语言模型，将长语音自动识别转换成短模块，以提高翻译质量，在三种语言上表现实验效果优于自动标点基线，同时使用两种条件解码策略提高输出的良好性。

Dec, 2022

通过潜在对齐分段实现长篇连贯语音翻译

提出一种新的分割方法，用于低延迟的端到端同时语音翻译，并且在多种语言对和领域数据中显示出具有先进水平的质量。

Sep, 2023

轻量级音频分割用于长篇语音翻译

提出了一种小型模型的分段模型，使用 ASR 语音识别与标点任务作为前训练策略并将其整合到 ST 系统中，以提高语音翻译质量。

Jun, 2024

双向语言模型在语义分割中改善长篇语音识别

通过从语言模型中提炼标点符号知识，并将其应用于分割长篇语音，我们研究出一种优于其他方法的，实现了 3.2% 相对词错误率增益以及 60ms 中位端到端延迟降低的流式自动语音识别管道分割器。

May, 2023

利用语音识别能力激发大型语言模型

通过直接添加小型音频编码器，扩展大型语言模型的能力，实现与其文本版本相同的自动语音识别系统，并在 Multilingual LibriSpeech 上的实验证明，即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时，多语种 ASR 仍然可行，从而为 LLMs 在长篇音频中进行操作开辟了可能性。

Jul, 2023

基于大规模语言模型的长篇数据重打分

研究表明，在使用大规模语言模型的情况下，对于长篇 ASR 测试集，可以使 Word Error Eate 和 Salient Term Error Rate 分别减少 8% 和 30%。

Jun, 2023

GenTranslate：大型语言模型是生成式跨语音和机器翻译器

利用大型语言模型的丰富语言知识和强大的推理能力，我们提出了一种新的生成式翻译范式 ——“GenTranslate”，可以从 N 个候选译文中生成更高质量的翻译结果，并且在各种语音和机器翻译基准测试中明显优于现有模型。

Feb, 2024

利用自动分割克服神经机器翻译中句子长度的诅咒

该研究通过将输入句子自动分割成易于神经机器翻译模型翻译的短语来解决长句翻译时翻译质量下降的问题，并证明了这种方法在长句翻译质量上有显著提升。

Sep, 2014

大型语言模型在扩展口语理解系统到新语言方面的应用

介绍了一种使用大型语言模型进行机器翻译的流水线，用于扩展语音助手系统的口语理解模型，提高了多语言场景和设备本地场景下的整体准确率。

Apr, 2024

利用大型语言模型攫取 ASR 不确定性

利用 n-best 列表提示方法，我们改善了基于大型语言模型的口语理解任务，使其能够更好地理解口语意图并应用于基于语音的应用。

Sep, 2023