深度学习中的语音链：说话中的听取

Jul, 2017

深度学习中的语音链：说话中的听取

Listening while Speaking: Speech Chain by Deep Learning

Andros Tjandra, Sakriani Sakti, Satoshi Nakamura

TL;DR该研究开发了一个基于深度学习的闭环语音链模型，并构建了将自动语音识别和文本转语音综合的方法。实验结果表明，该方法显著提高了性能，实现了人类语音知觉和制作行为的集成。

Abstract

Despite the close relationship between speech perception and production, research in automatic speech recognition (ASR) and text-to-speech synthesis (TTS) has progressed more or less independently without exertin

automatic speech recognition text-to-speech synthesis deep learning closed-loop speech chain model sequence-to-sequence model

发现论文，激发创造

机器语音链一次性说话人适应

本文提出了一种新的语音链机制，该机制通过在语音链环路中集成说话人识别模型，并实现一次性说话人适应性，从而提高语音生成和自动语音识别的性能。

Mar, 2018

直通估计器在语音链框架中的端到端反馈损失

本文介绍了如何使用直通估计器全面地训练语音链以实现重建损失，并使用随机采样实现了 ASR 参数的更新并将其性能提高了 11％的相对 CER 降低率。

Oct, 2018

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

SpeeChain：用于大规模机器语音链的语音工具包

本文介绍了 SpeeChain，一种开源的基于 Pytorch 的工具包，用于开发用于大规模使用的机器语音链。该工具包着重于 TTS 到 ASR 链这一核心组件，旨在通过未经口头语言的文本来增强 TTS 数据，从而增强机器语音链。研究者们通过实现易于使用的多 GPU 批级模型推断、多数据加载器批量生成和新颖的数据选择技术来构建大规模 TTS-to-ASR 链的高效流水线。本文首先解释了 TTS-to-ASR 链的总体流程及其各个步骤的困难之处。然后，研究者们对不同类型的未标记数据、数据过滤阈值、批级组成以及真实 - 合成数据比率进行了详细的剖析研究。最后，通过在 LibriSpeech 的 train_clean_460 上进行实验，证明了半监督学习机制下，TTS-to-ASR 极大地提高了 WER。

Jan, 2023

使用非成对语音和文本的半监督序列到序列自动语音识别

本文提出了一种新的半监督训练方法，该方法结合了端到端的不可区分的 ASR->TTS 损失和 TTS->ASR 损失，利用未配对的语音和文本数据，相较于其他相关技术在 WSJ 和 Librispeech 语料库上的 WER 性能更好。

Apr, 2019

朝向端到端口语理解

本文研究了口语理解系统的端到端学习方法，能够直接从音频特征中推断语义意义，而不需要中间文本表示。研究表明，该模型能够获得合理好的结果，并能直接从音频特征中捕捉语义注意力。

Feb, 2018

神经语音合成调查

本文全面调研了神经网络 TTS 在包括文本分析、声学模型、声码器等方面的研究进展，进一步总结了相关资源（数据集、开源实现），并提出了未来的研究方向。

Jun, 2021

大型预训练语言模型向端到端语音识别器的知识转移

本文提出了一种方法，通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题，并扩展了注意力机制的解码器和神经音响模式的解码器，以实现错误率的降低。

Feb, 2022

从预训练深度语言模型到端到端语音合成的迁移学习

本论文研究了通过引入 BERT 模型辅助训练 TTS 模型 Tacotron-2，以缓解高质量语音库的不足问题，并在模型训练中观察到模型收敛更快、结果中无杂音等优点。

Jun, 2019

基于预训练语音和语言模型的端到端语音识别整合

利用预训练语音表示模型与大型语言模型（LLM）的集成，通过以语音表示作为语音提示，自动逐步生成文本标记，以利用 LLM 提供的广博知识，从而实现端到端的自动语音识别（ASR）模型，该模型还可结合推理优化和参数高效领域适应等关键技术，实现与现代端到端 ASR 模型相媲美的性能。

Dec, 2023