自监督语音表示模型的分层分析

Jul, 2021

Layer-wise Analysis of a Self-supervised Speech Representation Model

Ankita Pasad, Ju-Chieh Chou, Karen Livescu

TL;DR本研究使用一套分析工具研究一款较新的波形自编码预训练语音表征模型，发现其中间表征向量所包含的声学信息和语言信息内容，并研究了自动语音识别（ASR）微调对这些观察结果产生的影响，为此提出了一个修改方案，并证明其在低资源设置中提高了单词错误率的表现。

Abstract

Recently proposed self-supervised learning approaches have been successful for pre-training speech representation models. The utility of these learned representations has been observed empirically, but not much h

发现论文，激发创造

wav2vec 2.0：自监督学习语音表示的框架

本研究首次证明了从语音音频中学习强大的表征，然后在经过转录的语音上进行微调可以胜过最好的半监督方法，而且概念上更简单，示范了在有限标注数据情况下实现语音识别的可行性。

Jun, 2020

Wav2vec-C: 一种用于语音表征学习的自监督模型

Wav2vec-C是一种结合语音编码和自监督学习的新的表示学习技术，训练模型在未标记数据和标记数据上表现都很好。

Mar, 2021

自监督预训练表示在端到端语音识别中的探索

本文探讨了预训练语音模型在 E2E-ASR 中的潜在应用，发现在一些 ASR benchmark corpora 上，使用预训练模型能够超越当前最先进的识别性能。其中，HuBERT 模型表现尤为突出，实验代码和模型参数已开源。

Oct, 2021

基于Conformer的自监督学习用于非语音音频任务

本文提出了一种自监督的音频表征学习方法并将其应用于多种非语音音频任务，这种自监督的预训练可以将标记数据需求减少三分之二，并在 AudioSet 基准测试中通过声音自主训练实现了 0.415 的平均平均精度（mAP）得分，在多个下游任务中，我们的 fine-tuned conformers 也超越或匹配以往以监督方式预训练的系统的性能。

Oct, 2021

自监督学习用于语音识别中间层辅助训练

利用中间层监督自监督学习（ILS-SSL）对语音预训练模型进行优化，可以更好地集中于音频内容信息学习，从而实现识别性能的提高，并且在语言模型不被使用情况下，相对字错率下降23.5%。

Dec, 2021

自监督语音模型的探索：情感语料库研究

本研究通过定量分析情感语料库探索了一种流行的自我监督模型——wav2vec 2.0，主要证明了：1）wav2vec 2.0似乎会丢弃不太有用于词汇识别的语用信息；2）对于情感识别，只使用中间层的表示与对多个层求平均后的表示效果相当，在某些情况下，只使用最后一层的表示效果最差；3）现有的自我监督模型可能不是利用非词汇特征的下游任务的最佳解决方案，为该领域未来的研究提供新的发现和理论基础。

Oct, 2022

自监督语音模型的分层比较分析

本研究使用基于规范相关性分析（CCA）的轻量级分析工具, 考察了多种最近模型的中间表示，发现它们所编码的属性在不同层次上发展，变化与预训练目标的选择有关, 进一步探究了这种分析在下游任务中的实用性, 并发现CCA趋势为选择下游任务感兴趣的层提供了可靠的指导, 单层性能往往与使用所有层相当或更好，这意味着更有效利用预训练模型的启示。

Nov, 2022

自监督语音模型探测音素和音位信息：以送气现象为案例研究

本文评估了自我监督语音模型的学习表示与人类语音的差异，结果表明这些模型在语音数据的优化和高维架构的帮助下成功地捕捉了语音的基本音素和音位特征，尤其是 speech-trained HuBERT 模型实现了抽象音位差异的低噪声和低维子空间。

Jun, 2023

自我监督的语音模型对单词的了解程度如何？

本研究发现，不同的自监督语音模型可以在不同的层次编码语言特征，在中间层最大程度地捕获了词级的信息，同时在较高层保留了发音等低层次信息，并用在无额外参数的情况下测试了这些模型的层次表现，同时发现使用HuBERT或WavLM的最佳表现层可以实现与更复杂的方法相媲美的词分割和语义句子相似性的表现。

Jun, 2023

从互信息角度重访语音表征的自监督学习

从信息论的角度出发，了解自监督语音表示学习的现有方法，通过使用互信息来开发度量方法，从而帮助模型设计和选择，并通过线性探测来评估表示的可访问性，展示模型在层次线性探测和语音识别上的性能。

Jan, 2024