基于门控机制的多音口音适应

Nov, 2020

Multi-Accent Adaptation based on Gate Mechanism

Han Zhu, Li Wang, Pengyuan Zhang, Yonghong Yan

TL;DR本研究采用 AST-G 与 MTL-G 框架，研究在多种语音口音情况下的语音识别表现，实验结果表明在减少重听率方面较基线模型有明显提升。

Abstract

When only a limited amount of accented speech data is available, to promote multi-accent speech recognition performance, the conventional approach is accent-specific adaptation, which adapts the baseline model to

multi-accent speech recognition accent-specific adaptation ast-g multi-task learning gate mechanism

发现论文，激发创造

跨口音语音识别上的快速适应学习

研究了方言对同一语言单词发音的影响，提出了一种基于模型对抗元学习算法的跨方言英语语音识别任务，通过实验表明该方法显著优于联合训练。

Mar, 2020

无需口音特定 TTS 前端的低资源口音建模

提出了一种利用语音转换技术和多人多口音 TTS 模型生成不同方言口音的方法，能够实现在没有专门的 TTS 前端系统的情况下，对低资源区域口音进行语音合成。

Jan, 2023

使用门控语言专家和课程训练建立高精度的多语言 ASR

使用门控语言专家和课程训练方案改善多语种 Transformer 转导模型的性能，并在英语和西班牙语的双语任务中比基准双语和单语模型分别获得 12.5% 和 7.3% 的相对字错误率降低，并且扩展到更多语言也具有类似的优势。

Mar, 2023

Qifusion-Net: 面向端到端的多口音语音识别的层自适应流 / 非流模型

通过提出一种名为 Qifusion-Net 的层自适应融合模型，我们可以在无需任何关于目标口音的先验知识的情况下，有效地识别多口音语音，并通过动态块策略实现流式解码，提取帧级声学特征，促进了精细的信息融合，实验结果表明，我们的方法在 KeSpeech 和 MagicData-RMAC 的多口音测试数据集上相对于基准模型分别降低了 22.1% 和 17.2% 的字符错误率（CER）

Jul, 2024

利用多层次 VAE 和对抗训练进行的文本转语音口音转化

提出了一种利用多级变分自编码器与对抗学习的文本转语音模型，用于解决语音合成和转换中的口音问题，以期构建更具包容性的系统。通过客观评价指标和主观听觉测试对性能进行评估，结果表明与基线相比，口音转换能力有所提高。

Jun, 2024

利用母语信息提高口音识别能力

本研究提出一种基于使用原生语言（西班牙语和印度语）预训练的端到端循环神经网络多任务学习模型，成功实现对英语口音的识别，相比于其他训练方法，此方法在减小语音中字符错误率方面表现更加优异。

Apr, 2019

一种用于普通话语音识别中快速扩充口音领域的元学习方案

通过元学习技术，本研究提出了一种快速扩展普通话语音识别中口音领域的方法，有效地改善了普通话语音识别在口音方面的性能，比其他方法相对提高了约 3%。

Jul, 2023

基于专家混合的语言模型中的自适应门控

在该研究中，作者提出了自适应门控混合专家模型，通过采用可变数量的专家处理令牌，实现了稀疏度的保持和训练效率的提高，通过大量实验验证了这种方法在减少训练时间的同时，保持推理质量。

Oct, 2023

基于门控低秩适应技术的个性化低配设备代码交替自动语音识别

该研究论文介绍了一种权重分离方法，用于最小化设备上的模型权重，并提出了结合单语和多语语音识别模型的混合语言语音识别模型，以解决个性化语音识别中的多语言识别问题，同时，引入了一种名为 GLoRA 的门控低秩适应方法来提高参数高效微调性能。实验证明，针对混合语言的微调语音识别模型优于从头开始训练的传统混合语言识别模型，并且 GLoRA 相对于传统的 LoRA 方法，有效地提升了参数高效微调的性能。

Apr, 2024

非自回归实时音调转换模型与语音克隆

我们开发了一种实时语音转换模型，具备母语感、最小延迟生成和多样性切换音色、性别和语音口音的能力，从而提高语音质量，增强现有 ASR 系统的识别性能，并适用于实时多用户通信场景。

May, 2024