引导式对比自监督预训练在自动语音识别中的应用
本论文介绍了基于对比性预测编码(CPC)特征的说话人验证的相关工作,重点是将 CPC 特征纳入标准的自动说话人验证系统中,并提出了相应的方法、实验和分析。同时还详细阐述了过去和最近的自动说话人验证系统工作、传统语音特征以及 CPC 背后的动机和技术等必要背景知识。
Apr, 2019
本篇研究调查了无监督预训练是否能够跨语言传输,以便自动语音识别系统(ASR)实现跨语言和多语言。研究表明,使用略加修改的对比性预测编码(CPC)预训练方式,能够提取和其他语言效果相当或甚至优于监督预训练的特征,证明了无监督方法在语言资源稀缺的情况下具有潜力。
Feb, 2020
本文研究了基于对比预测编码 (CPC) 的自监督学习 (SSL) 方法在音素分类和音素、单词分割方面的性能。结果表明,现有算法在分类和分割性能上存在平衡。为了弥合这种差距,我们借鉴了在分割方面较好的方法,并将多级建模方法整合到 CPC 的改进版本 Aligned CPC (ACPC) 中,提高了在所有分类指标上的性能,并在单词分割方面取得了最先进的性能。
Oct, 2021
本文提出了一个用于零资源语音处理的新的模型,称为分段对比预测编码,能够对音频信号的帧级和更高级别的分组进行编码,并将此模型用于音素和单词分割,结果在 TIMIT 和 Buckeye 数据集上显著优于现有方法。
Jun, 2021
我们提出了一种名为对比音素 - 语音预训练(CPSP)的方法,通过对比学习将音素和语音连接到联合多模态空间,并在帧级别学习如何连接音素和语音,从而实现了最小监督的文本到语音(TTS)、语音转换(VC)和自动语音识别(ASR)任务。
Sep, 2023
本文通过自监督学习探索了多层对比预测编码 (CPC) 模型对语音的分层表示,提出了一种基于不均匀下采样的模型,通过聚焦负采样和量化目标等方法增强了其对深度、离散性的优化,从而在 speech recognition 任务上得到了更好的效果,同时也实现了语音信号的有效分割。
Jun, 2022
本研究提出了一种普适的无监督学习方法 Contrastive Predictive Coding,通过使用强大的自回归模型在潜在空间中预测未来来提取高维数据的有用表示,以此学习有用的表示并在语音,图像,文本和三维环境中的强化学习中实现了强大的表现。
Jul, 2018
这篇论文介绍了一种利用自监督学习方法,通过单阶段训练自动语音识别模型,利用标记数据和非标记数据来训练模型,实现了对下游任务性能的直接优化,并在 Librispeech 100-hour 数据集上实现了类似于 wav2vec ~2.0 的词错误率,最后提出解决对比任务是计算 CTC 损失的正则化的假设。
Oct, 2020
该研究探讨使用自回归预测编码(APC)进行生成式预训练学习,以学习有意义、不具体且可传递的语音表示,并经过三个语音应用程序的转移学习实验来验证和评估其效能。该方法不仅在所有 3 个任务上优于表面特征和其他流行的表示学习方法,而且还能够减少下游标注数据大小和模型参数。同时,使用 Transformers 来建模 APC 将优于使用递归神经网络(RNN)方法。
Oct, 2019
该论文提出了一种使用自监督学习和分段对比预测编码框架来同时完成语音信号的音素和类似单词的分割任务,并发现了连续元音或半元音之间的边界是最难识别的,从而可以在较低的特征提取率下提取出更好的语音特征。
Oct, 2021