无监督声学模型自适应学习隐藏单元贡献
本研究提出一种利用隐藏单元聚类框架进行自监督表示学习进行说话的表征学习的方法,该方法能够将表示归类为少量的类似音素的单元,通过对两个数据集进行实验证明了其在无监督和半监督声学任务上的有效性。
Jul, 2023
提出了一种新颖的嘴唇阅读中的说话人适应方法,根据嘴唇运动中浅层和深层的特点分别对其进行处理,通过自动学习说话者的独特特征以提高鲁棒的嘴唇阅读。
Oct, 2023
研究了多种适应和规则化技术,并使用深度神经网络,调查了自适应性训练的潜力, 并研究了退火珂朵莉的效果,得出结果表明使用 LHUC 进行适应可以改善全语言子母的 CTC 系统的性能,并且在有限数据上可以实现与 DNN/HMM 系统的竞争性性能。
Nov, 2017
本文提出了一种通过语音信号和图像区域的语义相关性,发现连续语音信号中类似于单词的语音单元,并将其与图像区域相关联的方法。这个模型能够有效地实现一种口语语言习得的形式,不使用常规的自动语音识别或文本传输,同时丰富学习词汇的语义含义及图像联系。
Jan, 2017
本文提出了一种基于特征适应和模型适应的统一说话人自适应方法,其中采用一种说话人感知的持久性记忆模型进行特征适应,并使用一种新颖的逐步修剪方法进行模型适应。在 Librispeech 数据集上的实验结果表明,相对于基线方法,在一般说话人自适应和目标说话人自适应中使用所提出的方法可带来 2.74-6.52% 的词错误率下降,并且该方法具有良好的低资源适应性能。
Oct, 2021
本文介绍了使用离散潜变量神经网络对无标签语音进行离散子单词建模,使用自编码器架构进行中间离散化,在训练中,根据模型的特点对语音单元重新建模,以甄别可离散化的语音特征。在测试中,离线甄别采用未知说话者的语音,通过已知目标说话者的条件下的解码来获得重构的滤波器组。最后,使用神经声码器将输出进行合成,比较分别使用分类变分自编码器(CatVAEs), 矢量量化 VAEs(VQ-VAEs)和直通估计在两种语言上的不同压缩水平,并发现该模型可以在离散表示方面产生竞争性的合成质量
Apr, 2019
本研究提出了一个利用聚类和预测损失的自监督学习方法 HuBERT,来解决语音表示学习中存在的多个输入单元、无法在预训练阶段建立输入单元词典以及不明显的分割问题,该方法对于掩盖区域的预测损失、高质量的聚类步骤具有一定的鲁棒性,在多个基准测试集上的表现不低于当前最先进的 wav2vec 2.0 性能。
Jun, 2021
利用对抗性学习进行无监督适应性,采用神经网络和未分类的适应性数据解决了远程语音识别问题,相对于没有适应的模型,相对词错误率下降了 19.8%。
Jul, 2018
本文提出一种用于领域自适应的方法,不需要转录数据,而是使用源域和目标域的无标记平行数据,利用教师 / 学生学习方法在目标域中训练模型,并在两种场景下进行评估,实现了显著的准确率提升,尤其是当使用模拟训练数据时,增加了模型的鲁棒性。
Aug, 2017
本文介绍了一种扩展 LDA 模型的方法,利用马尔可夫链来建模时间信息,从而用于语音信号的无监督单元发现。与基本的 LDA 模型相比,扩展后的模型可以更好地描述相邻单元之间的关系,从而得到更好的语音单元划分结果。
Jun, 2022