无需语音识别的语音到文本翻译

ACLFeb, 2017

Towards speech-to-text translation without speech recognition

Sameer Bansal, Herman Kamper, Adam Lopez, Sharon Goldwater

TL;DR本文探讨语音转文本翻译的问题，使用无监督术语发现技术将音频文件转化为伪文本，并使用其进行简单的词袋机翻译，面对跨讲话者无监督术语发现的难题，系统实现了低召回率的跨语音翻译。

Abstract

We explore the problem of translating speech to text in low-resource scenarios where neither automatic speech recognition (ASR) nor machine translation (MT) are available, but we have training data in the form of audio paired with text translations. We present the first system for this problem applied to a realistic →

speech-to-text translation low-resource scenarios unsupervised term discovery multi-speaker dataset bag-of-words mt model

发现论文，激发创造

利用跨语言侧面信息进行弱监督口语术语发现

本文介绍了一种使用文本翻译来改善无监督术语发现系统（UTD）结果的简单方法，并在一组西班牙语音频和英语翻译的语料库上进行了测试，结果表明，该方法在广泛的系统配置和数据预处理方法下大大提高了结果的平均精度。

Sep, 2016

无监督语音文本翻译

本文提出了一种基于单语音频和文本语料库的语音翻译系统框架，使用交叉模态双语词典将每个源语音片段对应到目标文本翻译，通过使用语言模型和序列去噪自编码器，对每个音频片段进行逐字翻译来提高翻译质量，实验结果表明，我们的无监督系统尽管没有监督，但达到了与监督方法相比可比的 BLEU 分数。

Nov, 2018

简单有效的无监督语音翻译

本文利用无监督语音识别、机器翻译与语音合成技术，探讨实现无标注数据建立语音翻译系统的方法，通过管道方法或生成伪标签，对端到端语音翻译模型进行训练。同时，提出一种无监督域自适应方法，能够提供一定的性能提升。实验结果表明，本文提出的无监督语音翻译方法，在 Libri-Trans 基准测试的 BLEU 分数上超过以前报告的无监督效果的 3.2 个点，在 CoVoST2 数据集上，本文的最佳系统相对于最佳监督学习的端到端模型（无预训练），在五个语种（X-En）上平均提高 5.0 个 BLEU 分数。在 MuST-C 和 CVSS 基准测试上，本文也取得了有竞争力的结果。

Oct, 2022

朝向无需发音模型的无监督语音识别

本研究采用不依赖音素词典的新方法，通过仅包含高频英语词汇的语料库，在没有配对语音和文字数据的情况下，实现了近 20% 的词错误率，并证明了基于联合语音到语音和文本到文本的标记填充技术，使得无监督语音识别系统的性能超过了直接分布匹配方法。

Jun, 2024

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

基于单元的无平行数据语音翻译

本文提出了一种基于自动发现独立单元的无监督语音到语音翻译系统，使用三步训练过程，避免使用自动语音识别和文本转语音模型，在合成语音上的实验结果表明该方法可行。

May, 2023

利用未对齐的语音和文本训练的非监督自动语音识别技术

本文研究无监督语音识别方法，提出由语音向量表示、语义嵌入和无监督转换的框架，这一框架可用于缺乏音频文本对齐数据和受监督方法无法应用的低资源语言。

Mar, 2018

无监督文本转语音合成与无监督自动语音识别

该论文提出了一种基于对齐模块输出伪文本和另一个合成模块使用伪文本进行训练和实际文本进行推断的无监督文本转语音综合系统，可以在每种语言的 10-20 小时语音中实现与监督系统相当的性能，并开展了对文本单元和声码器影响的研究。

Mar, 2022

通过无标注文本改进语音到语音翻译

通过应用声学效果生成大量合成数据，利用现有的大量不同语言的未标记文本，提出了一种有效的方法来利用大量的语音到语音翻译数据，改进翻译质量，在西班牙语 - 英语和俄语 - 英语翻译中提高了 2 个 BLEU，尤其是在极低资源情况下表现显着。

Oct, 2022

听写翻译：端到端语音转文本翻译的概念验证

本文是第一篇尝试构建不使用源语言转录的端到端语音到文本翻译系统的论文，并提出了一种直接语音到文本翻译的模型，在一小部分法英人造语料库上取得了有希望的结果。

Dec, 2016