评估无真实标注数据的外语口音转换方法

MMSep, 2023

评估无真实标注数据的外语口音转换方法

Evaluating Methods for Ground-Truth-Free Foreign Accent Conversion

Wen-Chin Huang, Tomoki Toda

TL;DR外语口音转换是声音转换的一个特殊应用，通过使用序列到序列模型和非平行语音转换模型，本研究评估了三种无需真实参考数据的外语口音转换方法，发现在所有评估指标上，没有一种方法明显优于其他方法。

Abstract

foreign accent conversion (FAC) is a special application of voice conversion (VC) which aims to convert the accented speech of a non-nativ

foreign accent conversion voice conversion accented speech sequence-to-sequence model non-parallel vc model

发现论文，激发创造

非自回归实时音调转换模型与语音克隆

我们开发了一种实时语音转换模型，具备母语感、最小延迟生成和多样性切换音色、性别和语音口音的能力，从而提高语音质量，增强现有 ASR 系统的识别性能，并适用于实时多用户通信场景。

May, 2024

保留语音特征的零 - shot 多音系转换

研究使用对抗学习来实现口音转换，能够将说话者的声音身份保留下来，并可将未知说话者的话语转换为多种口音，主观评估显示该模型生成更接近目标口音且类似于原说话者的音频。

Nov, 2022

用于自动语音识别的合成跨口音数据增强

本研究旨在改进口音转换模型，通过加入声学知识，提高模型对不同口音发音的准确性，采用生成数据训练 ASR 系统，实验结果表明，合成带有口音的数据有助于提高 ASR 系统对已见口音的语音理解，但不能推广到未见口音及纯母语模型上。

Mar, 2023

非平行语音转换中源样式转移

本研究提出一种基于序列到序列的非并行语音转换方法，该方法能够通过显式建模将源语音中的说话风格转移至转换后的语音，并在客观评估和主观听力测试中证明了其在语音自然度和说话人相似度方面优于其他方法，并进行了实验来展示该方法的源语音风格可转移性。

May, 2020

谁是真实的讲者

探索利用深度学习技术进行声音转换，识别原始说话者的可行性，通过使用分段转换的转换语音进行实验证明从转换声音中识别真实说话者的可行性，并使用具有来自源说话者的某些信息的 VLAD 进行构建的识别模型在转换语音上表现出很好的性能。

Apr, 2024

使用非平行数据将从 TTS 中转移的语言表示进行口音转换

该研究提出了一种新颖的非自回归框架用于口音转换，通过学习口音无关的语言表示并使用它们来转换源语音中的口音，从而保留说话者的身份。研究还调查了在我们提出的框架中的本地数据和不同声学特征的预训练策略的有效性，并使用主客观度量来全面评估了我们方法的性能。评估结果突出了预训练策略和丰富的语义特征的益处，显著提高了音频质量和可理解性。

Jan, 2024

跨口音语音识别上的快速适应学习

研究了方言对同一语言单词发音的影响，提出了一种基于模型对抗元学习算法的跨方言英语语音识别任务，通过实验表明该方法显著优于联合训练。

Mar, 2020

基于流模型语音转换实现跨语言语音合成以提高发音

该论文介绍了一种端到端的跨语言文字转语音方法，使用基于非注意力 Tacotron 架构的模型，并通过使用条件为说话人身份的归一化流网络，实现 TTS 和语音转换（VC）的可同时进行，该方法可以在低资源情景下获得良好效果。

Oct, 2022

FragmentVC: 基于端到端提取、融合细粒度语音片段的注意力任意语音转换

本研究提出了 FragmentVC 的方法，通过 Wav2Vec 2.0 获取源说话者话语的潜在语音结构，通过目标说话者话语的频谱特征获取目标说话者的细节音频片段，并使用 Transformer 关注机制将其融合到所需的话语中，无需考虑内容和说话者信息的区分，仅基于重构损失进行训练，结果显示优于 AdaIN-VC 和 AutoVC 等先进方法。

Oct, 2020

地理区域近似场景下的低资源口音分类：法庭和社会语音学视角

本文探讨了不同语音机器学习模型及分类器在地方口音识别方面的应用，发现传统方法的性能也值得关注，并证实了一种新方法测量社会语音变化。

Jun, 2022