引导式对比自监督预训练在自动语音识别中的应用

Oct, 2022

引导式对比自监督预训练在自动语音识别中的应用

Guided contrastive self-supervised pre-training for automatic speech recognition

Aparna Khare, Minhua Wu, Saurabhchand Bhati, Jasha Droppo, Roland Maas

TL;DR本研究提出了一种名为 GCPC 的改进型 CPC 方法，可以注入先验知识并在 Tacotron2 上进行预训练，实验表明，相比于 CPC，该方法在德语，法语和英语等自动语音识别任务中均表现出更好的识别效果。

Abstract

contrastive predictive coding (CPC) is a representation learning method that maximizes the mutual information between intermediate latent representations and the output of a given model. It can be used to effectively initialize the encoder of an →

contrastive predictive coding guided contrastive predictive coding automatic speech recognition prior-knowledge injection word error rate

发现论文，激发创造

基于对比预测编码特征的自动语音说话人验证

本论文介绍了基于对比性预测编码（CPC）特征的说话人验证的相关工作，重点是将 CPC 特征纳入标准的自动说话人验证系统中，并提出了相应的方法、实验和分析。同时还详细阐述了过去和最近的自动说话人验证系统工作、传统语音特征以及 CPC 背后的动机和技术等必要背景知识。

Apr, 2019

无监督预训练在语言间具备良好的迁移能力

本篇研究调查了无监督预训练是否能够跨语言传输，以便自动语音识别系统（ASR）实现跨语言和多语言。研究表明，使用略加修改的对比性预测编码（CPC）预训练方式，能够提取和其他语言效果相当或甚至优于监督预训练的特征，证明了无监督方法在语言资源稀缺的情况下具有潜力。

Feb, 2020

无监督分割和分类音素和单词的对比预测策略

本文研究了基于对比预测编码 (CPC) 的自监督学习 (SSL) 方法在音素分类和音素、单词分割方面的性能。结果表明，现有算法在分类和分割性能上存在平衡。为了弥合这种差距，我们借鉴了在分割方面较好的方法，并将多级建模方法整合到 CPC 的改进版本 Aligned CPC (ACPC) 中，提高了在所有分类指标上的性能，并在单词分割方面取得了最先进的性能。

Oct, 2021

无监督单词分段的分段对比预测编码

本文提出了一个用于零资源语音处理的新的模型，称为分段对比预测编码，能够对音频信号的帧级和更高级别的分组进行编码，并将此模型用于音素和单词分割，结果在 TIMIT 和 Buckeye 数据集上显著优于现有方法。

Jun, 2021

CPSP: 从音素监督中学习语音概念

我们提出了一种名为对比音素 - 语音预训练（CPSP）的方法，通过对比学习将音素和语音连接到联合多模态空间，并在帧级别学习如何连接音素和语音，从而实现了最小监督的文本到语音（TTS）、语音转换（VC）和自动语音识别（ASR）任务。

Sep, 2023

变率分层 CPC 用于语音中的声学单位发现

本文通过自监督学习探索了多层对比预测编码 (CPC) 模型对语音的分层表示，提出了一种基于不均匀下采样的模型，通过聚焦负采样和量化目标等方法增强了其对深度、离散性的优化，从而在 speech recognition 任务上得到了更好的效果，同时也实现了语音信号的有效分割。

Jun, 2022

对比预测编码的表示学习

本研究提出了一种普适的无监督学习方法 Contrastive Predictive Coding，通过使用强大的自回归模型在潜在空间中预测未来来提取高维数据的有用表示，以此学习有用的表示并在语音，图像，文本和三维环境中的强化学习中实现了强大的表现。

Jul, 2018

联合掩码 CPC 和 CTC 训练用于自动语音识别

这篇论文介绍了一种利用自监督学习方法，通过单阶段训练自动语音识别模型，利用标记数据和非标记数据来训练模型，实现了对下游任务性能的直接优化，并在 Librispeech 100-hour 数据集上实现了类似于 wav2vec ~2.0 的词错误率，最后提出解决对比任务是计算 CTC 损失的正则化的假设。

Oct, 2020

自回归预测编码的语音生成预训练

该研究探讨使用自回归预测编码（APC）进行生成式预训练学习，以学习有意义、不具体且可传递的语音表示，并经过三个语音应用程序的转移学习实验来验证和评估其效能。该方法不仅在所有 3 个任务上优于表面特征和其他流行的表示学习方法，而且还能够减少下游标注数据大小和模型参数。同时，使用 Transformers 来建模 APC 将优于使用递归神经网络（RNN）方法。

Oct, 2019

使用分段对比预测编码进行无监督语音分割和可变速率表示学习

该论文提出了一种使用自监督学习和分段对比预测编码框架来同时完成语音信号的音素和类似单词的分割任务，并发现了连续元音或半元音之间的边界是最难识别的，从而可以在较低的特征提取率下提取出更好的语音特征。

Oct, 2021