模态适应还是正则化？以端到端语音翻译为例的案例研究

ACLJun, 2023

模态适应还是正则化？以端到端语音翻译为例的案例研究

Modality Adaption or Regularization? A Case Study on End-to-End Speech Translation

Yuchen Han, Chen Xu, Tong Xiao, Jingbo Zhu

TL;DR该研究发现，在端到端语音翻译 (E2E ST) 的预训练和微调中，存在语音和文本数据之间的模态差异，但该差异只在微调的早期阶段产生影响。然而，另一个 “容量差距” 则是高资源任务总是需要一个大模型来适应，当模型被重用于低资源任务 (E2E ST) 时，由于过拟合会导致次优性能。研究发现，规范化方法对于优化模型比模态适应方法更加重要，在 MuST-C 数据集上的实验中，可以获得 29.0 (en-de) 和 40.3 (en-fr) 的性能。

Abstract

pre-training and fine-tuning is a paradigm for alleviating the data scarcity problem in end-to-end speech translation (E2E ST). The common

pre-training fine-tuning speech translation modality gap capacity gap

发现论文，激发创造

理解和弥合语音翻译的模态差距

本文研究对于 ST 和 MT 之间的通道差，提出了一种名为 Cress 的跨模态规范化方法。通过输出 ST 和 MT 的预测值，使用采样和不同训练权重来处理难以处理的情况，实现了在 MuST-C 数据集的八个方向上取得了显著效果。

May, 2023

端到端语音到文本翻译中一致性正则化的实证研究

通过经验研究，本文针对端到端语音转文本翻译提出了两种训练策略：SimRegCR 和 SimZeroCR，以实现一致性正则化的最新性能。在 MuST-C 基准测试中，在大多数翻译方向上，我们的方法取得了最先进的性能。分析证明，由内部一致性带来的正则化对于常规的端到端语音转文本翻译至关重要，而跨模态一致性可消除模态差异并提升零 - shot 端到端语音转文本翻译性能。

Aug, 2023

弥合语音到文本翻译的模态差距

提出了一种称作 STAST 的语音转写自适应模型，通过分离语音翻译编码器为三个部分以及引入跨模态自适应方法来缩小语音和文本的模态差距，进而在英法和英德语音翻译数据集上实现了显著的性能优越。

Oct, 2020

通过跨模态多粒度对比学习提高语音翻译质量

该论文提出了一种 FCCL 方法，通过跨模态多粒度对比学习来实现显式知识转移，该方法在多语言和多粒度上显著优于 E2E-ST 基线，有助于提取包含丰富语义信息的语音表示。

Apr, 2023

连接预训练与微调：面向端到端语音翻译的差距缩小

本文提出使用 Tandem Connectionist Encoding Network 解决传统方法在 end-to-end 语音翻译中 fine-tuning 与 pre-training 之间巨大差距的问题，进而设计了两种简单且有效的方法保证语音编码器的输出和 MT 编码器的输入在语义表示和序列长度上一致。通过实验，我们的模型在一个大型基准数据集上优于基线 2.2 BLEU。

Sep, 2019

基于形式不可知元学习的数据高效直接语音翻译

本文提出了一种基于元学习算法采用模态不可知的多任务模型，将源任务 ASR + MT 的知识转移到目标任务 ST 中，以应对 ST 任务短缺数据的问题，该方法在英德和英法语音翻译任务中取得了最新的最佳性能结果。

Nov, 2019

调整大型语言模型用于端到端语音翻译

本研究提出了 LST，一个大型多模型，旨在优化端到端语音翻译任务的性能并创造新的技术水平。在 MuST-C 语音翻译基准测试中，LST-13B 取得了 30.39/41.55/35.33 的 BLEU 分数，超过了之前的模型并树立了新的最新技术水平。此外，还进行了单模型选择和训练策略对结果的影响的深入分析，为未来的研究奠定了基础。

Oct, 2023

AdaTranS: 基于边界缩小适应的端到端语音翻译

本研究提出了 AdaTranS 技术，通过预测单词边界，减少语音和文本特征之间的长度差异以适应语音特征，解决了端到端语音翻译中的数据稀缺问题。通过 MUST-C 数据集的实验表明，AdaTranS 比其他基于收缩的方法具有更好的性能，具有较高的推理速度和低内存使用率。进一步的实验还表明，AdaTranS 还可以配备额外的对齐损失来进一步提高性能。

Dec, 2022

M 适配器：端到端语音到文本翻译的语言形式适应

本研究提出一种新型基于 Transformer 的 M-Adapter 方法，通过建模语音序列的全局和局部依赖关系，将语音表示特征适应到文字输入上，以缩小语音输出和文字输入之间的模态差距，从而提高端到端语音到文本翻译的质量，并在 Must-C En→DE 数据集上获得比强基准模型高达 1 BLEU 得分的表现。

Jul, 2022

重思和改进端到端语音翻译的多任务学习

通过应用多任务学习，已经在端到端语音翻译中取得了显著的改进。本文研究了不同任务之间的一致性，并提出了一种改进的多任务学习方法，通过缓解长度和表征的差异来弥合模态间的差距。实验证明我们的方法达到了最先进的结果。此外，当使用额外的数据时，我们在 MuST-C 英语到西班牙语任务上以当前最先进方法所需的 20.8% 的训练时间取得了新的最先进结果。

Nov, 2023