向量量化自回归预测编码

May, 2020

Vector-Quantized Autoregressive Predictive Coding

Yu-An Chung, Hao Tang, James Glass

TL;DR本文提出了一种新颖的 VQ-APC 模型，通过探究逐渐受限的模型序列，明确了学习表示的成分，同时发现存在将音素和说话者信息最大化以优化自监督目标的点。

Abstract

autoregressive predictive coding (APC), as a self-supervised objective, has enjoyed success in learning representations from large amounts of unlabeled data, and the learned representations are rich for many downstream tasks. However, the connection between low self-supervised loss and

autoregressive predictive coding vector-quantized autoregressive predictive coding self-supervised learning quantized representations speech information

发现论文，激发创造

自回归预测编码的语音生成预训练

该研究探讨使用自回归预测编码（APC）进行生成式预训练学习，以学习有意义、不具体且可传递的语音表示，并经过三个语音应用程序的转移学习实验来验证和评估其效能。该方法不仅在所有 3 个任务上优于表面特征和其他流行的表示学习方法，而且还能够减少下游标注数据大小和模型参数。同时，使用 Transformers 来建模 APC 将优于使用递归神经网络（RNN）方法。

Oct, 2019

多目标自回归预测编码改进语音表示

通过未标记的语音学习有意义的表示方法，将预测编码的培训目标应用于自回归预测编码（ARPC），并提出了一种辅助目标以提高未来帧预测任务的泛化能力和语音内容。不仅支持假设，还证明了该方法在学习含有更丰富语音内容的表示方面的有效性。

Apr, 2020

零语音 2020 挑战中基于向量量化的神经网络用于语音单元发现

本文提出两种神经模型，均使用向量量化技术将连续特征映射为有限的编码，旨在利用无标签数据学习将语音的音素内容与说话人特定细节分离的离散表述。在 Zero Speech 2020 挑战赛的英语和印度尼西亚语数据上，我们的两个模型都优于 2019 年和 2020 年挑战赛的所有提交，相对提高超过 30%。

May, 2020

小数据中音素预测编码模型的学习分析

本研究基于两个不同语言的数据集，研究了两种预测编码模型（APC 和 CPC）的行为，发现 CPC 模型在短时间内已经取得了更好的表现，其预测损失优化后的表现也符合语音识别领域中音素特征学习的最优化要求。

Jul, 2020

非自回归预测编码：从局部依赖学习语音表示

本研究提出非自回归预测编码 (NPC) 的自学习方法，通过仅依赖语音的本地依赖，在非自回归方式下学习语音表示。使用新引入的蒙版卷积块实现 NPC 的概念简单、易于实现的目标，并且在每个时间步长上具有固定的推断时间，从而加速了推理速度。理论和实证比较证明了 NPC 的有效性，与其他方法相比，NPC 的表现在语音实验中可比，而且更加高效。

Nov, 2020

基于模板的音乐生成的矢量量化对比预测编码

本文提出了一种灵活的方法，用于在离散序列中生成具有基本单元（例如文本中的句子或音乐中的小节）分组的变化。我们的方法依赖自监督编码技术和 Transformer 架构，通过学习有意义的分配和压缩表示，在不需要任何注释的情况下生成新的序列。实验展示了在巴赫合唱曲集中使用该方法能够生成连贯而高质量的曲目变化。

Apr, 2020

Wav2vec-C: 一种用于语音表征学习的自监督模型

Wav2vec-C 是一种结合语音编码和自监督学习的新的表示学习技术，训练模型在未标记数据和标记数据上表现都很好。

Mar, 2021

对比预测编码的表示学习

本研究提出了一种普适的无监督学习方法 Contrastive Predictive Coding，通过使用强大的自回归模型在潜在空间中预测未来来提取高维数据的有用表示，以此学习有用的表示并在语音，图像，文本和三维环境中的强化学习中实现了强大的表现。

Jul, 2018

朝向准确的图像编码：动态向量量化改进自回归图像生成

提出了一种新的两阶段框架，它使用动态量化 VAE 将图像区域编码为基于其信息密度的可变长度代码，以实现更准确，更紧凑的代码表示，从而解决了现有 VQ 基于自回归模型的固定长度编码问题，该方法通过一种新的堆叠 Transformer 架构和共享内容、独立位置输入层设计，从粗粒度到细粒度生成图像。

May, 2023

Bi-APC: 双向自回归预测编码用于无监督预训练及其在儿童语音识别中的应用

本文提出了一种双向无监督模型预训练方法（UPT），并将其应用于儿童自动语音识别，该方法通过自回归预测编码器（APC）和带有双向模型的 Bi-APC，将成人语音数据上的知识传递到儿童语音数据，提高了 LSTM 的基础识别结果。

Feb, 2021