本文提出了利用预训练自我的向量量化神经网络来实现语音分段和聚类的无监督学习方法,并在各种任务中展示出可以在低码率下得到更好的表现的切分方法。
Dec, 2020
使用预训练模型学习到的语音表示作为输入特征,采用可学习权重的平均表示方法,在 Voxceleb 数据集上进行了自我监督训练,实现了自动说话人验证,在三个官方测试中分别取得了 0.537%、0.569%和 1.180%的等误差率(EER),超越了 VoxCeleb Speaker Recognition Challenge 2021 (VoxSRC2021) 中的优胜系统。
Oct, 2021
本文提出两种神经模型,均使用向量量化技术将连续特征映射为有限的编码,旨在利用无标签数据学习将语音的音素内容与说话人特定细节分离的离散表述。在 Zero Speech 2020 挑战赛的英语和印度尼西亚语数据上,我们的两个模型都优于 2019 年和 2020 年挑战赛的所有提交,相对提高超过 30%。
May, 2020
通过利用语音的结构性质,采用神经网络预测边界从而实现可变长度池化,以去除语音表示中的说话人信息。通过使用时间拉伸和音高变换的数据增强方法,该模型训练时被评估为包含内容信息但独立于说话人信息。
Apr, 2024
本文提出了一种匿名表示方案,使用矢量量化来限制表示空间并通过禁止说话人身份信息实现对隐私的保护,从而在保留语音识别的基础上实现说话人匿名化。
Mar, 2022
论文介绍了一种针对语音识别的自监督学习方法,通过使用随机投影量化器生成离散标签,从而学习模型预测被屏蔽掉的语音信号,并在不更新随机初始化矩阵和码本的情况下实现。通过实验,该方法在 LibriSpeech 上取得了与自监督非流式模型相似的字错率,并且比 wav2vec 2.0 和 w2v-BERT 的流式模型具有更低的字错率和延迟,在多语种任务中也优于旧有的 wav2vec 2.0 和 w2v-BERT。
Feb, 2022
本文回顾了过去十年中无监督表示学习在语音处理领域的发展,归纳了自监督方法和概率隐变量模型这两类主要模型,提出了全面的分类方法,并讨论了这两类模型。
本文提出了一种新颖的半监督文本到语音(TTS)框架 QS-TTS,通过利用更多未标记的语音音频,并借助向量量化的自监督语音表示学习(VQ-S3RL)来改善 TTS 质量,从而降低对有监督数据的需求。
Aug, 2023
本论文探讨了如何利用无监督的声学特征来增强语音识别,其中,通过学习始终对某些变换和变形不变的音频信号表示,实现了对短小的语音样本的有效处理,从而极大地提升了元音分类的准确性并降低了样本复杂性。
Jun, 2014
本研究研究了多种预训练模型和池化方法,用于构建自监督表征下的变长口语单词片段的声学词嵌入,发现 HuBERT 表示法在英语 AWE 上具有与当前最先进技术相媲美的效果,并且在 XiTsonga、Mandarin、French 上显著优于多语言模型 XLSR-53。
Oct, 2022