快速连接主义说话人适应

Nov, 2022

Rapid Connectionist Speaker Adaptation

Michael Witbrock, Patrick Haffner

TL;DR该研究介绍了一种名为 SVCnet 的系统，使用专门针对每种语音声音的编码神经网络生成小维度的声学变异模型，并进一步将这些模型组合成总体的声音变异模型。该系统可以用于适应识别新说话人的功能，其中将 SVCnet 与 MS-TDNN 识别器相结合的系统也被详细介绍。

Abstract

We present svcnet, a system for modelling speaker variability. Encoder Neural Networks specialized for each speech sound produce low dimensionality models of →

svcnet speaker variability neural networks voice recognition acoustical variation

发现论文，激发创造

基于说话人自适应的神经声码器的参数化语音合成系统

本文提出了适应性讲话者神经声码器，用于参数文本到语音（TTS）系统，利用全局属性提取方法及目标讲话者特征优化获得了高质量可自适应的 TTS 语音合成。

Nov, 2018

从说话人验证到多说话人语音合成的迁移学习

描述了一个基于神经网络的文本转语音（TTS）合成系统，可以以许多不同讲话者的声音生成语音音频，该系统由三个独立训练的部分组成，包括训练说话者编码器网络进行讲话者验证任务，基于 Tacotron 2 的序列合成网络，以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。

Jun, 2018

高效自适应文本转语音

采用元学习方法对自适应文本到语音合成进行研究，通过共享 WaveNet 核和独立学习的扬声器嵌入来学习多讲话者模型，该方法能够成功地将多扬声器神经网络进行快速适应并获得最新演讲者的自然音质和语音相似度的最新结果。

Sep, 2018

基于讲话者注意力的语音情感识别

本文提出了一种基于自训练机制以及 Self Speaker Attention 机制的情感识别方法，该方法在 Att-HAC 和 IEMOCAP 上实现了最新的性能表现。

Apr, 2021

基于短暂无转录样本的新说话人匹配

我们提出了一种基于学习的文本转语音系统，通过使用嵌入空间内的网络来从短的未转录音频样本中捕获新说话者，实现了语音合成系统的极大性能提升，且适用于新的声音，即使从非常短的样本中拟合。

Feb, 2018

VQVC+: 基于向量量化和 U-Net 架构的一次性语音转换

本文利用 U-Net 架构和向量量化方法来优化声音转换，取得了良好的声音自然度和说话人相似度。

Jun, 2020

跨模态判别式网络的音视频说话人识别

使用跨模态网络 VFNet（Voice-Face Disciminative Network）来建立人类语音和面部之间的关系，辅助音视觉说话人识别，相较于 2019 年 NIST SRE 中评估集的基准音视频融合，VFNet 实现了 16.54% 相对的准确率降低。

Aug, 2020

基于神经网络的语音识别自适应算法概述

本文概述了基于混合隐马尔可夫模型 / 神经网络系统和端到端神经网络系统的适应性算法，重点关注说话人适应、领域适应和口音适应，并将适应性算法分为嵌入、模型参数适应或数据增强。我们对文献中语音识别适应算法的性能进行了元分析，基于相对误差率减少。

Aug, 2020

S2VC: 基于自监督预训练表示的任意语音转换框架

本文介绍了几种任意语音转换方法（例如 AUTOVC、AdaINVC 和 FragmentVC）以及一种新方法 S2VC，该方法利用自监督学习（SSL）特征作为源和目标特征进行 VC 模型，该方法的客观评价和主观评价都显示出优于以 PPG 为源特征的模型，表明 SSL 特征在改进 VC 方面具有巨大潜力。

Apr, 2021

使用说话人表示和自监督上下文嵌入进行口吃检测

本研究通过使用预先训练的深度学习模型提取的语音嵌入，探索了使用 ECAPA-TDNN 和 Wav2Vec2.0 模型进行口吃检测任务的音频表示。相对于仅在有限 SEP-28k 数据集上训练的标准口吃检测系统，本研究在多个传统分类器上获得了 12.08％、28.71％、37.9％的相对改进并进一步证明结合两个嵌入和连接多个层的 Wav2Vec2.0 可进一步提高其性能。

Jun, 2023