将语音编码器与下游文本模型相结合

Jul, 2024

将语音编码器与下游文本模型相结合

Coupling Speech Encoders with Downstream Text Models

Ciprian Chelba, Johan Schalkwyk

TL;DR本研究提出了一种模块化的方法，用于构建级联语音翻译模型，确保所得到的模型在性能上不低于最佳级联基线，同时保持语音识别和文本翻译的最先进表现。论文的创新在于引入了“导出”层，通过L2损失训练，确保语音识别嵌入与文本翻译标记嵌入之间的良好匹配，从而实现性能提升，尤其在无法增量训练文本模型的情况下。

Abstract

We present a Modular Approach to building cascade Speech Translation (AST) models that guarantees that the resulting model performs no worse than the 1-best cascade baseline while preserving state-of-the-art spee

发现论文，激发创造

语音翻译与端到端的承诺：回顾我们的现状

本文介绍了语音翻译技术从松散耦合的串联模型到紧耦合再到最近备受关注的端到端模型的发展历程，讨论了传统方法所面临的主要挑战和最新方法对克服这些问题的方案。通过对传统和最新方法进行统一分类和命名，以解决语音识别和数据缺失问题等开放性研究问题。

Apr, 2020

紧密集成的级联语音翻译端到端训练

本文提出了一种端到端的可训练语音翻译模型，通过优化所有ASR和MT模型的参数而避免级联模型中的误差传播，并且通过使用人工神经网络实现backpropagation传递误差以实现同时提供转录和翻译，对于四个不同数据场景的实验表明，该模型在BLEU和TER方面均优于传统级联模型和直接模型。

Nov, 2020

联合语音识别和翻译的流式模型

本文介绍了如何使用端到端模型进行语音翻译，并在流式翻译设置中实现同时生成音频转录和翻译输出，并比较了与标准级联方法的表现，结果表明这种方法与级联模型的表现相似，但参数数量更少。

Jan, 2021

堆叠声学 - 文本编码：将预训练模型整合进语音翻译编码器

本文提出了一种堆叠声音和文本编码方法（SATE），以改进现有的自动语音识别和机器翻译编码器不足，使其更适合于末端到末端的语音翻译任务。实验结果表明，我们的方法在LibriSpeech En-Fr 和 MuST-C En-De ST任务上，都获得了最新的BLEU分数。

May, 2021

利用同步的流式ASR辅助的直接同声传译

本文提出一种新型的语音翻译范例, 通过使用两个分离但同步的解码器, 一个用于流式ASR, 一个用于直接语音翻译, 并通过ASR生成的中间结果指导直接语音翻译, 实现了流畅度更高的翻译质量。

Jun, 2021

使用统一的语音与文本编码器-解码器来改善ASR

本研究利用外部文本数据提高自动语音识别的性能，探讨了一种方法，在共享解码器和编码器部分的集合中，联合训练自动语音识别和掩码语言模型。经实验验证，该方法在测试中取得了非常好的效果，耗时不增加。

Feb, 2022

LegoNN:构建模块化编码器-解码器模型

描述了LegoNN过程，它通过重新使用decoder模块来构建encoder-decoder结构，从而实现在各种机器翻译和语音识别任务中的重复使用，同时引入了一种模态不可知编码器来提高其可移植性。实验证明LegoNN模型的有效性。

Jun, 2022

利用文本对齐进行联合流式自动语音识别和语音翻译的分词级被序列化输出训练

该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式Transformer-Transducer，并提出了一种联合令牌级串行输出训练方法以实现有效的ASR和ST内容生成，其平均ASR延迟为1秒，ST延迟为1.3秒，在多语言情况下优化了输出质量表现。

Jul, 2023

将LLMs融入级联语音翻译：KIT离线语音翻译系统在IWSLT 2024中的应用

将大型语言模型（LLMs）集成到自动语音识别（ASR）和机器翻译（MT）系统中，通过利用N-best列表细化ASR输出和精炼LLM来提高翻译质量，实现了ASR和MT系统的性能改进。

Jun, 2024

STTATTS：统一语音转文本和文本转语音模型

本研究解决了语音识别和语音合成模型通常分开训练的问题，提出了一种通过多任务学习和共享参数的参数高效方法。研究表明，该多任务模型的性能与单独训练的模型相当，同时显著减少了计算和内存成本（两个任务所需的参数总数减少约50%）。

Oct, 2024