解析 wav2vec 特征编码的黑盒

Oct, 2022

Opening the Black Box of wav2vec Feature Encoder

Kwanghee Choi, Eun Jung Yeo

TL;DR本文研究了自监督模型 Wav2vec 及其变体在语音领域的各种下游任务中的应用。通过对其卷积特征编码器进行分析，发现该模型可以表示离散的声学单元，从而实现更加高效的语音识别。

Abstract

self-supervised models, namely, wav2vec and its variants, have shown promising results in various downstream tasks in the speech domain. However, their inner workings are poorly understood, calling for in-depth a

self-supervised models wav2vec acoustic units embedding space latent representations

发现论文，激发创造

使用 WaveNet 自编码器进行无监督的语音表示学习

本研究旨在通过自编码神经网络从语音波形中提取有意义的潜在表示，并比较三个变体：简单维度约束、高斯变分自编码器和离散量化矢量自编码器，成果表明此方法在 ZeroSpeech 2017 任务中获得了可比拟的表现。

Jan, 2019

为语音生成与转换学习潜在表征

使用变分自编码器实现了对自然语音生成过程的建模与学习，获得了较大突破。利用学习的潜在空间算术操作，实现了对语音的音素内容或说话人身份的无监督修改，无需平行监控数据。

Apr, 2017

利用 VQ-VAE 从口腔和声学特征进行自监督语音单元发现

使用关节建模和深度学习研究了如何在自我监督情况下使用关节信息发现语音单元，并在实验中发现联合使用关节和语音学模态可以更准确地表示这些语音学维度。

Jun, 2022

预训练语音编码器的自监督重连：在语音处理中以更少标签更快微调

本文针对预训练语音编码器中的表示空间进行了研究，并通过对比自监督学习构建正对，以实现对表示空间的改进，进而在低资源环境下提高了语音处理任务的收敛速度和表现。

Oct, 2022

使用离散隐变量神经网络进行语音合成的无监督声学单元发现

本文介绍了使用离散潜变量神经网络对无标签语音进行离散子单词建模，使用自编码器架构进行中间离散化，在训练中，根据模型的特点对语音单元重新建模，以甄别可离散化的语音特征。在测试中，离线甄别采用未知说话者的语音，通过已知目标说话者的条件下的解码来获得重构的滤波器组。最后，使用神经声码器将输出进行合成，比较分别使用分类变分自编码器（CatVAEs）, 矢量量化 VAEs（VQ-VAEs）和直通估计在两种语言上的不同压缩水平，并发现该模型可以在离散表示方面产生竞争性的合成质量

Apr, 2019

Wav2vec-C: 一种用于语音表征学习的自监督模型

Wav2vec-C 是一种结合语音编码和自监督学习的新的表示学习技术，训练模型在未标记数据和标记数据上表现都很好。

Mar, 2021

wav2vec 2.0：自监督学习语音表示的框架

本研究首次证明了从语音音频中学习强大的表征，然后在经过转录的语音上进行微调可以胜过最好的半监督方法，而且概念上更简单，示范了在有限标注数据情况下实现语音识别的可行性。

Jun, 2020

vq-wav2vec：离散语音表示的自我监督学习

该研究提出了 vq-wav2vec 算法，用于学习音频片段的离散表示，并通过自监督上下文预测任务实现。实验结果表明，BERT 预训练在 TIMIT 音素分类和 WSJ 语音识别方面实现了新的最优结果。

Oct, 2019

基于自编码器的声学词嵌入分析

本文研究了六种语言中通过序列编码 - 解码模型学习到的声学词嵌入的基本属性，展示了其表示空间中包含单词的绝对时长和说话者信息，且在这些 AWE 的表示空间内，单词的嵌入距离会随着它们的语音差异而增加，且表现出词语起始偏置，证明了 AWE 作为认知科学中一个有潜力的工具，在连接语音处理和词汇记忆方面具有良好的前景。

Apr, 2020

基于循环神经网络的语音表征建模中声音学编码

研究使用回归神经网络模型处理图像和其口述描述中语音音素的表示和编码，通过一系列实验分析了音素如何在模型的各层中编码，发现最明显的音素表示在较低层，而注意力机制则显著削弱语音学编码，并使得话语嵌入更加不变。

Jun, 2017