无监督声学模型自适应学习隐藏单元贡献

Jan, 2016

无监督声学模型自适应学习隐藏单元贡献

Learning Hidden Unit Contributions for Unsupervised Acoustic Model Adaptation

Pawel Swietojanski, Jinyu Li, Steve Renals

TL;DR通过学习隐藏单元贡献的调整方法（LHUC），这项工作介绍了神经网络声学模型的适应性研究，将其扩展到发言人自适应训练和多种语音识别基准，并证明在测试和 SAT 方案中，LHUC 均能在不同程度的训练和测试数据不匹配的情况下显著提高词错误率。

Abstract

This work presents a broad study on the adaptation of neural network acoustic models by means of learning hidden unit contributions (LHUC) -- a method that linearly re-combines hidden units in a speaker- or environment-dependent manner using small amounts of →

neural network acoustic models learning hidden unit contributions speaker adaptive training speech recognition benchmarks unsupervised adaptation data

发现论文，激发创造

利用隐藏单元聚类进行低资源语音应用的表示学习

本研究提出一种利用隐藏单元聚类框架进行自监督表示学习进行说话的表征学习的方法，该方法能够将表示归类为少量的类似音素的单元，通过对两个数据集进行实验证明了其在无监督和半监督声学任务上的有效性。

Jul, 2023

学习可分离的隐藏单元贡献用于适应性口型阅读

提出了一种新颖的嘴唇阅读中的说话人适应方法，根据嘴唇运动中浅层和深层的特点分别对其进行处理，通过自动学习说话者的独特特征以提高鲁棒的嘴唇阅读。

Oct, 2023

基于 CTC 的声学模型的多语言训练和跨语言适应

研究了多种适应和规则化技术，并使用深度神经网络，调查了自适应性训练的潜力，并研究了退火珂朵莉的效果，得出结果表明使用 LHUC 进行适应可以改善全语言子母的 CTC 系统的性能，并且在有限数据上可以实现与 DNN/HMM 系统的竞争性性能。

Nov, 2017

从联合音视频分析中学习类似单词的单位

本文提出了一种通过语音信号和图像区域的语义相关性，发现连续语音信号中类似于单词的语音单元，并将其与图像区域相关联的方法。这个模型能够有效地实现一种口语语言习得的形式，不使用常规的自动语音识别或文本传输，同时丰富学习词汇的语义含义及图像联系。

Jan, 2017

面向语音识别的统一说话人适应方法

本文提出了一种基于特征适应和模型适应的统一说话人自适应方法，其中采用一种说话人感知的持久性记忆模型进行特征适应，并使用一种新颖的逐步修剪方法进行模型适应。在 Librispeech 数据集上的实验结果表明，相对于基线方法，在一般说话人自适应和目标说话人自适应中使用所提出的方法可带来 2.74-6.52% 的词错误率下降，并且该方法具有良好的低资源适应性能。

Oct, 2021

使用离散隐变量神经网络进行语音合成的无监督声学单元发现

本文介绍了使用离散潜变量神经网络对无标签语音进行离散子单词建模，使用自编码器架构进行中间离散化，在训练中，根据模型的特点对语音单元重新建模，以甄别可离散化的语音特征。在测试中，离线甄别采用未知说话者的语音，通过已知目标说话者的条件下的解码来获得重构的滤波器组。最后，使用神经声码器将输出进行合成，比较分别使用分类变分自编码器（CatVAEs）, 矢量量化 VAEs（VQ-VAEs）和直通估计在两种语言上的不同压缩水平，并发现该模型可以在离散表示方面产生竞争性的合成质量

Apr, 2019

HuBERT：自监督语音表示学习通过隐藏单元的掩码预测

本研究提出了一个利用聚类和预测损失的自监督学习方法 HuBERT，来解决语音表示学习中存在的多个输入单元、无法在预训练阶段建立输入单元词典以及不明显的分割问题，该方法对于掩盖区域的预测损失、高质量的聚类步骤具有一定的鲁棒性，在多个基准测试集上的表现不低于当前最先进的 wav2vec 2.0 性能。

Jun, 2021

基于对抗学习的无监督领域自适应技术，用于提高语音识别的鲁棒性

利用对抗性学习进行无监督适应性，采用神经网络和未分类的适应性数据解决了远程语音识别问题，相对于没有适应的模型，相对词错误率下降了 19.8%。

Jul, 2018

基于教师 - 学生学习的大规模领域自适应

本文提出一种用于领域自适应的方法，不需要转录数据，而是使用源域和目标域的无标记平行数据，利用教师 / 学生学习方法在目标域中训练模型，并在两种场景下进行评估，实现了显著的准确率提升，尤其是当使用模拟训练数据时，增加了模型的鲁棒性。

Aug, 2017

无监督声学单元发现的潜在狄利克雷分配的时间扩展

本文介绍了一种扩展 LDA 模型的方法，利用马尔可夫链来建模时间信息，从而用于语音信号的无监督单元发现。与基本的 LDA 模型相比，扩展后的模型可以更好地描述相邻单元之间的关系，从而得到更好的语音单元划分结果。

Jun, 2022