- 学习解缠绕语音表示
利用综合研究人工数据集 SynSpeech 来评估监督技术在语音表征解耦上的效果,弥补有限的语音数据集缺乏已知生成因素的问题,为现有最先进的语音表征学习方法提供全面的评估和框架,进一步推动这个相对较少探索的领域的发展。
- 评估自监督语音表示对美国土著语言的应用
应用自监督方法于语音表示学习的研究已引起广泛关注,然而,目前的进展主要集中在只考虑英语的单语模型上。我们在 ASRU 2023 ML-SUPERB 挑战赛的新语言轨道上提交了一份研究报告,其中介绍了一个针对 Quechua 语(一种南美洲土 - MASR:元数据感知的语音表示
该论文提出了一种元数据感知的语音表示学习框架(MASR),通过使用多个外部知识源来增强元数据信息的利用,以实现在语言识别、语音识别、说话人和情感识别等下游任务中较其他基准方法明显的性能提升,并对语言识别任务进行了详细分析,以阐明所提出的损失 - 基于设备的约束自监督语音表示学习在关键词检测中的应用:知识蒸馏
提出了一种基于知识蒸馏的自监督语音表示学习(S3RL)体系结构,用于在设备上进行关键词检测任务,通过使用双视角交叉相关蒸馏和教师的码本作为学习目标,在设备资源限制内构建自监督模型,对 Alexa 关键词检测任务表现出非凡的性能。
- 面向语言识别的标签感知语音表示学习
本文提出了一种新的 Label Aware Speech Representation (LASR) 方法,将自我监督表示学习与语言标签信息相结合,使用三元组目标函数将语言标签与自我监督损失函数结合起来,并进一步优化语音表示以适用于下游任务 - 同步还是顺序训练?多任务自监督学习系统中语音表示如何协作
本文研究了基于 wav2vec 2.0 的自我监督学习和基于 transformer 的视觉接地语音的联合优化作为多任务学习系统,发现先进行 wav2vec 2.0 的串行训练,再进行 VGS 可以提高音频 - 视觉检索的性能,但是并行 S - 通过数据增强、课程学习和多任务增强提高 DistilHuBERT 对未知噪声环境的鲁棒性
本研究提出了一种改进的 DistilHuBERT 模型,该模型引入了噪声和混响以及多任务学习的训练方法,能够有效提高在真实环境下的边缘语音应用中的鲁棒性。
- ERNIE-SAT: 跨语言多说话人文本转语音的语音和文本联合预训练
在跨语言场景中进行了语音表示学习的探索,提出了语音文本联合预训练框架,通过学习重构不同语言的输入来进行预训练,取得了在多语言场景下优于基于说话人嵌入的多说话人 TTS 方法的成果。
- data2vec-aqc:在教师 - 学生培训环境中寻找合适的助教
提出一种名为 data2vec-aqc 的自监督学习算法,利用数据增强,量化表示和聚类等技术来提高语音领域中有限的未标记和标记数据的质量。该算法在 LibriSpeech 的测试数据集上实现了 14.1%至 20.9%的相对词错误率改进,并 - 通过语音水平和音素水平屏蔽方法改善语音表示学习
本研究提出两种掩蔽方法(语音水平掩蔽和音素水平掩蔽),并通过这两种方法的预训练,在音素分类和说话人识别两个下游任务上评估。实验表明,所提出的掩蔽方法有助于提高语音表示的性能。
- ICML自监督音频模型有效解释人类大脑对语音的反应
本文回顾了目前人类低级听觉处理的现有模型,并利用自学语言模型技术创建了新的人类听觉系统的先进模型。结果表明,与声学基线、音素特征和监督模型相比,来自自监督模型中间层的表示可以显著提高对听觉皮层的 fMRI 记录的预测性能,并且不同的听觉处理 - 自监督语音表示学习:综述
本论文综述了自监督语音表示学习的方法及其与其他研究领域的联系,讨论了将学习到的表示推广到语音识别以外的应用的最新研究进展。
- SAMU-XLSR:语义对齐的多模态话语级跨语言语音表示
提出了 SAMU-XLSR 模型,基于语义对齐的多模态跨语言话语级别语音表示学习框架。通过将 XLS-R 模型和 LaBSE 模型组合,SAMU-XLSR 模型可以提取高质量的多模态多语言话语语音特征,并可以实现跨语音和跨文字之间的相互转换 - ICMLA$^3$T: 面向语音合成和编辑的韵律感知声学和文本预训练
该研究提出了一种名为 A³T 的框架,通过将文本输入与声学 - 文本对齐结合,训练出预训练模型来生成高质量的重构语谱图,以实现有声编辑和无外部说话人验证模型的多说话人语音合成。
- HuBERT:自监督语音表示学习通过隐藏单元的掩码预测
本研究提出了一个利用聚类和预测损失的自监督学习方法 HuBERT,来解决语音表示学习中存在的多个输入单元、无法在预训练阶段建立输入单元词典以及不明显的分割问题,该方法对于掩盖区域的预测损失、高质量的聚类步骤具有一定的鲁棒性,在多个基准测试集 - DeCoAR 2.0:具有向量量化的深度语境化声学表示
文章介绍了使用语音表征学习的方法在没有标签的数据上训练语音识别模型的新方法 DeCoAR 2.0。该模型采用 Transformers 编码模型,引入了向量量化层来对语音表征进行训练,并在多个数据稀疏的场景下表现出一致的提高。
- Speech SIMCLR:将对比和重构目标相结合,实现自我监督语音表示学习
本文提出了一种名为 Speech SimCLR 的新自监督学习方法,通过对原始语音和其频谱图进行增强,结合对比损失最大化潜在空间中不同增强样本的一致性以及输入表示的重构损失函数进行训练,取得了在语音情感识别和语音识别上的良好结果。
- 一种卷积深度马尔可夫模型用于无监督语音表征学习
本文提出了 ConvDMM,这是一种使用非线性发射和转移函数模型的高斯状态空间模型,并使用深度卷积神经网络作为结构变分近似的推理网络的无监督模型。当在大规模语音数据集上进行训练时,ConvDMM 产生的特征在线性电话分类和在 WSJ 数据集 - Mockingjay: 无监督双向 Transformer 编码器的语音表征学习
Mockingjay 是一种基于双向 Transformer 编码器的语音表示学习方法,它可以通过联合过去和未来的上下文来预测当前语音帧,提高音素分类、说话人识别和情感分类等下游任务的性能,且仅需很少的标注数据即可实现优越表现。
- 无监督自回归模型用于语音表示学习
本文提出了一种新颖的无监督自回归神经模型,用于学习通用的语音表示,通过无需音素或单词边界标签的方法,从大量未标记数据中学习。我们的模型的语音表示显著提高了电话分类和说话人验证的性能,并且我们的分析表明,不同级别的语音信息由我们的模型在不同层