关于端到端语音翻译过滤的案例研究

Feb, 2024

关于端到端语音翻译过滤的案例研究

A Case Study on Filtering for End-to-End Speech Translation

Md Mahfuz Ibn Alam, Antonios Anastasopoulos

TL;DR通过使用最简单的筛选技术可以从大量的嘈杂数据集中减少数据量，得到一组更易管理和干净的数据集，并且在多语言到英语语音翻译模型中使用这样的清洁数据集可以显著提高模型性能，平均提升 4.65 个 BLEU 得分。

Abstract

It is relatively easy to mine a large parallel corpus for any machine learning task, such as speech-to-text or speech-to-speech translation. Although these mined corpora are large in volume, their quality is questionable. This work shows that the simplest →

parallel corpus machine learning filtering technique clean dataset model performance

发现论文，激发创造

利用数据过滤提高低资源非洲语言的多语言翻译

使用预先训练的语言模型，并通过筛选数据集与过滤噪声数据的方法提升翻译质量，证实数据过滤方法在机器翻译中的实用性。

Oct, 2022

在联合多语言空间中过滤和挖掘并行数据

通过联合多语句嵌入学习并利用在不同语言中句子之间的距离来过滤嘈杂的平行数据和在大型新闻集合中挖掘平行数据。不同于翻译系统的体系结构，这种方法可以应用于多种语言对，并在 BUCC 共享任务中获得有竞争力的结果，用于识别可比较语料库中的平行句子。

May, 2018

通过预训练语言模型进行平行语料库过滤

本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法，并利用 BERT 的多语言能力度量语句的平行性，使用生成预训练（GPT）语言模型作为领域过滤器来平衡数据领域，通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验，证明该方法明显优于基准线，并取得了新的最新成果。

May, 2020

多语言一对多端到端语音翻译

本文旨在通过使用多语言方法探究转移学习在以端到端神经模型进行口语翻译中的有效性，结果表明，使用目标语言嵌入语义空间可以更有效地区分不同目标语言并改进结果，其中当对相似语言进行翻译时效果更为显著，特别是数据不足的情况下。

Oct, 2019

利用弱监督数据提高端到端的语音到文本翻译

本文探讨了使用预训练的机器翻译或文本到语音合成模型将弱监督数据转化为语音到翻译对对于 ST 的训练比多任务学习效果更好的问题，展示了只使用弱监督数据即可以获得高质量的终到端 ST 模型，并讨论了避免模型对合成的语音过度拟合的方法。

Nov, 2018

选择机器翻译数据快速引导自然语言理解系统

本文研究了使用机器翻译（MT）为大规模语音控制设备的新语言引导自然语言理解（NLU）系统的使用情况，并探讨了不同的 MT 数据过滤方法以及语言特定的后处理方法在大规模 NLU 任务中的应用。结果表明，使用 MT 数据可以大大提高 NLU 的性能并减少人工工作量。

May, 2018

利用短语对注入和语料过滤改进机器翻译

本论文表明，短语注入和语料库过滤的组合提高了神经机器翻译 (NMT) 系统的性能。我们从伪平行语料库中提取并增广平行短语和句子，以此训练 NMT 模型。在 Hindi-Marathi、English-Marathi 和 English-Pashto 这 3 种低资源语言对和 6 种翻译方向上，我们观察到了 NMT 系统的改进，并在 FLORES 测试数据上提高了 2.7 BLEU 分，这些 BLEU 分数改进是基于使用整个伪平行语料库和平行语料库增广的模型。

Jan, 2023

选择性数据增强对于强健的语音翻译的影响

该论文介绍了使用端到端系统和噪声机器翻译数据增强策略来改进语音翻译，提高 BLEU 分数，该方法应用于英语 - 印地语语音翻译。

Mar, 2023

有声读物端到端自动语音翻译

本研究旨在探讨在经过语料库特殊增强的情况下，对语音到文本翻译进行端到端的研究。我们不仅研究了在学习和解码期间没有源语言转录的极端情况，还研究了在训练时仅提供源语言转录的中间情况。实验结果表明，在这种设置下，可以训练出紧凑高效的端到端语音转换模型。同时，我们提供了语料库，并希望未来的研究能够挑战我们在该语料库上的语音翻译基线模型。

Feb, 2018

少即是多”：“少样本” 质量评估基于语料库过滤提升机器翻译

本文提出了一种基于质量评估的过滤方法，以从伪平行语料库中提取高质量的平行数据，并通过使用过滤后的语料库进行训练，改善了机器翻译系统的性能。该方法在英语 - 马拉地语、中文 - 英语和印地语 - 孟加拉语语言对中表现出了很好的效果，通过迁移学习在仅使用 500 个印地语 - 孟加拉语训练实例的情况下，相比基准模型提高了最多 0.6 个 BLEU 分数。

Jun, 2023