机器语音链一次性说话人适应

Mar, 2018

Machine Speech Chain with One-shot Speaker Adaptation

Andros Tjandra, Sakriani Sakti, Satoshi Nakamura

TL;DR本文提出了一种新的语音链机制，该机制通过在语音链环路中集成说话人识别模型，并实现一次性说话人适应性，从而提高语音生成和自动语音识别的性能。

Abstract

In previous work, we developed a closed-loop speech chain model based on deep learning, in which the architecture enabled the automatic speech recognition (ASR) and →

speech chain deep learning automatic speech recognition text-to-speech synthesis speaker adaptation

发现论文，激发创造

深度学习中的语音链：说话中的听取

该研究开发了一个基于深度学习的闭环语音链模型，并构建了将自动语音识别和文本转语音综合的方法。实验结果表明，该方法显著提高了性能，实现了人类语音知觉和制作行为的集成。

Jul, 2017

SpeeChain：用于大规模机器语音链的语音工具包

本文介绍了 SpeeChain，一种开源的基于 Pytorch 的工具包，用于开发用于大规模使用的机器语音链。该工具包着重于 TTS 到 ASR 链这一核心组件，旨在通过未经口头语言的文本来增强 TTS 数据，从而增强机器语音链。研究者们通过实现易于使用的多 GPU 批级模型推断、多数据加载器批量生成和新颖的数据选择技术来构建大规模 TTS-to-ASR 链的高效流水线。本文首先解释了 TTS-to-ASR 链的总体流程及其各个步骤的困难之处。然后，研究者们对不同类型的未标记数据、数据过滤阈值、批级组成以及真实 - 合成数据比率进行了详细的剖析研究。最后，通过在 LibriSpeech 的 train_clean_460 上进行实验，证明了半监督学习机制下，TTS-to-ASR 极大地提高了 WER。

Jan, 2023

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

直通估计器在语音链框架中的端到端反馈损失

本文介绍了如何使用直通估计器全面地训练语音链以实现重建损失，并使用随机采样实现了 ASR 参数的更新并将其性能提高了 11％的相对 CER 降低率。

Oct, 2018

AdaSpeech 4: 零 - shot 场景下的自适应文本转语音

本文提出了一个高质量的语音合成系统 AdaSpeech 4，用于零样本适应性文本到语音。该系统通过将说话者特征系统地建模来提高对新说话者的泛化能力，并通过三个步骤改善了建模。除了利用条件层归一化将提取的说话人特征整合到 TTS 模型中之外，本文基于基向量的分布提出了一种新的监督损失，以在生成的 Mel 声谱图中保持相应的说话人特征。在多个数据集中，AdaSpeech 4 实现了比基线更好的语音质量和相似性，而无需进行任何微调。

Apr, 2022

从说话人验证到多说话人语音合成的迁移学习

描述了一个基于神经网络的文本转语音（TTS）合成系统，可以以许多不同讲话者的声音生成语音音频，该系统由三个独立训练的部分组成，包括训练说话者编码器网络进行讲话者验证任务，基于 Tacotron 2 的序列合成网络，以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。

Jun, 2018

使用非成对语音和文本的半监督序列到序列自动语音识别

本文提出了一种新的半监督训练方法，该方法结合了端到端的不可区分的 ASR->TTS 损失和 TTS->ASR 损失，利用未配对的语音和文本数据，相较于其他相关技术在 WSJ 和 Librispeech 语料库上的 WER 性能更好。

Apr, 2019

使用单一端到端模型的多语言语音识别

本文介绍了一种基于序列到序列的正常语音识别模型，它适用于 9 种不同的印度语言，并通过训练语言特定的字形集合，将这些语言联合起来训练模型以提高其性能。

Nov, 2017

TTS Skins：基于 ASR 的说话人转换

本篇研究基于深度学习、语音识别和自回归方式，为完成语音转换任务提出了全卷积的 wav-to-wav 网络，该研究利用说书音频数据训练出能够实现多人声音转换的模型。

Apr, 2019

USAT: 通用说话者自适应文本转语音方法

现有的文本转语音（TTS）研究主要致力于提高训练数据集中演讲者合成语音的质量。为迎接有限参考数据的见外 / 未训练演讲者进一步合成真实语音的挑战，我们提出了一个整合了零样本和少样本演讲者适应策略的框架。

Apr, 2024