多目标自回归预测编码改进语音表示

ACLApr, 2020

多目标自回归预测编码改进语音表示

Improved Speech Representations with Multi-Target Autoregressive Predictive Coding

Yu-An Chung, James Glass

TL;DR通过未标记的语音学习有意义的表示方法，将预测编码的培训目标应用于自回归预测编码（ARPC），并提出了一种辅助目标以提高未来帧预测任务的泛化能力和语音内容。不仅支持假设，还证明了该方法在学习含有更丰富语音内容的表示方面的有效性。

Abstract

Training objectives based on predictive coding have recently been shown to be very effective at learning meaningful representations from unlabeled speech. One example is Autoregressive →

predictive coding unlabeled speech autoregressive rnn future frame prediction phonetic content

发现论文，激发创造

自回归预测编码的语音生成预训练

该研究探讨使用自回归预测编码（APC）进行生成式预训练学习，以学习有意义、不具体且可传递的语音表示，并经过三个语音应用程序的转移学习实验来验证和评估其效能。该方法不仅在所有 3 个任务上优于表面特征和其他流行的表示学习方法，而且还能够减少下游标注数据大小和模型参数。同时，使用 Transformers 来建模 APC 将优于使用递归神经网络（RNN）方法。

Oct, 2019

小数据中音素预测编码模型的学习分析

本研究基于两个不同语言的数据集，研究了两种预测编码模型（APC 和 CPC）的行为，发现 CPC 模型在短时间内已经取得了更好的表现，其预测损失优化后的表现也符合语音识别领域中音素特征学习的最优化要求。

Jul, 2020

非自回归预测编码：从局部依赖学习语音表示

本研究提出非自回归预测编码 (NPC) 的自学习方法，通过仅依赖语音的本地依赖，在非自回归方式下学习语音表示。使用新引入的蒙版卷积块实现 NPC 的概念简单、易于实现的目标，并且在每个时间步长上具有固定的推断时间，从而加速了推理速度。理论和实证比较证明了 NPC 的有效性，与其他方法相比，NPC 的表现在语音实验中可比，而且更加高效。

Nov, 2020

向量量化自回归预测编码

本文提出了一种新颖的 VQ-APC 模型，通过探究逐渐受限的模型序列，明确了学习表示的成分，同时发现存在将音素和说话者信息最大化以优化自监督目标的点。

May, 2020

无监督自回归模型用于语音表示学习

本文提出了一种新颖的无监督自回归神经模型，用于学习通用的语音表示，通过无需音素或单词边界标签的方法，从大量未标记数据中学习。我们的模型的语音表示显著提高了电话分类和说话人验证的性能，并且我们的分析表明，不同级别的语音信息由我们的模型在不同层次上捕获。

Apr, 2019

对比预测编码的表示学习

本研究提出了一种普适的无监督学习方法 Contrastive Predictive Coding，通过使用强大的自回归模型在潜在空间中预测未来来提取高维数据的有用表示，以此学习有用的表示并在语音，图像，文本和三维环境中的强化学习中实现了强大的表现。

Jul, 2018

语音增强的语言建模用于文本到语音合成

我们提出了一种声学增强的语言建模方法，通过使用语音单元预测中的错误积累来改善 TTS 模型的性能，通过自我监督表示来作为自回归语言模型的训练目标，并采用非自回归模型来预测包含细粒度声学细节的离散声学编解码器，以减少非自回归训练中的错误传播，客观和主观评估验证了我们提出方法的有效性。