为爱沙尼亚会话式口语翻译的端到端模型进行微调

ACLJul, 2024

为爱沙尼亚会话式口语翻译的端到端模型进行微调

Finetuning End-to-End Models for Estonian Conversational Spoken Language Translation

Tiia Sildam, Andra Velve, Tanel Alumäe

TL;DR通过网页抓取和合成数据，采用三种已公开可用的端到端模型（Whisper、OWSM 3.1 和 SeamlessM4T）进行精调，结果表明，使用合成数据进行精调可以大幅提高翻译准确性，SeamlessM4T 可以与使用最先进语音识别和机器翻译模型的级联语音翻译系统相媲美甚至超越。

Abstract

This paper investigates the finetuning of end-to-end models for bidirectional estonian-English and estonian-Russian conversational speech-

end-to-end models speech-to-text translation estonian synthetic data translation accuracy

发现论文，激发创造

利用语音合成训练端到端口语理解模型

文章提出了一种使用语音合成生成大规模合成数据集的方法，以克服要求领域内语音数据记录的问题，并在两个开源数据集上进行实验证明该方法在作为训练数据的唯一来源和数据扩充形式时的有效性。

Oct, 2019

基于端到端的语音转文本翻译的比较研究

本文介绍了深度学习在语音到文本翻译领域的应用，主要研究了不同端到端架构以及辅助性连接主义时间分类（CTC）损失函数的使用，着重探讨了预训练模型对最终性能的影响，实验证明预训练模型可以使 BLEU 指标提高 4％，TER 指标提高 5％，并且在 270 小时 IWSLT TED 演讲 En->De 和 100 小时 LibriSpeech Audiobooks En->Fr 上的实验结果表明，该方法可以超过当前的端到端最先进系统。

Nov, 2019

通过合成音频数据进行端到端低资源语音翻译

我们在国际口语翻译会议 (IWSLT 2024) 上描述了我们的系统提交，用于爱尔兰 - 英语语音翻译。我们基于 Whisper 构建了端到端系统，并采用了一些数据增强技术，如语音回译和噪声增强。我们研究了使用合成音频数据的影响，并讨论了几种丰富信号多样性的方法。

Jun, 2024

多语言一对多端到端语音翻译

本文旨在通过使用多语言方法探究转移学习在以端到端神经模型进行口语翻译中的有效性，结果表明，使用目标语言嵌入语义空间可以更有效地区分不同目标语言并改进结果，其中当对相似语言进行翻译时效果更为显著，特别是数据不足的情况下。

Oct, 2019

跨语言中间微调改进对话状态跟踪

该论文提出了一种在预训练多语言模型之间进行跨语言传递学习的方法，通过中间微调预训练的多语言模型，使其适用于不同但相关的数据和 / 或任务，以提高对话系统的性能。

Sep, 2021

利用弱监督数据提高端到端的语音到文本翻译

本文探讨了使用预训练的机器翻译或文本到语音合成模型将弱监督数据转化为语音到翻译对对于 ST 的训练比多任务学习效果更好的问题，展示了只使用弱监督数据即可以获得高质量的终到端 ST 模型，并讨论了避免模型对合成的语音过度拟合的方法。

Nov, 2018

连接预训练与微调：面向端到端语音翻译的差距缩小

本文提出使用 Tandem Connectionist Encoding Network 解决传统方法在 end-to-end 语音翻译中 fine-tuning 与 pre-training 之间巨大差距的问题，进而设计了两种简单且有效的方法保证语音编码器的输出和 MT 编码器的输入在语义表示和序列长度上一致。通过实验，我们的模型在一个大型基准数据集上优于基线 2.2 BLEU。

Sep, 2019

基于流式端到端模型的大规模多语言语音识别

本文介绍了一种使用条件向量和针对语言的适配器层结合的多语言端到端模型，取得了比单语言模型和传统模型都更低的语音识别误差率。

Sep, 2019

通过语音翻译辅助的端到端口语理解

利用跨语言语音翻译 (ST) 作为预训练任务可提高单语和多语意图分类，口语问答的性能，并探索模型的贝叶斯迁移学习和持续学习惯性。

May, 2023

多语言端到端语音翻译

本文提出了一种简单且有效的多语言端到端语音翻译框架，并证明了其在自动语音识别、机器翻译、一对多翻译以及多对多翻译中的有效性以及相对于双语端到端语音翻译的优势。

Oct, 2019