自监督语音表示模型的分层分析
本研究首次证明了从语音音频中学习强大的表征,然后在经过转录的语音上进行微调可以胜过最好的半监督方法,而且概念上更简单, 示范了在有限标注数据情况下实现语音识别的可行性。
Jun, 2020
本文探讨了预训练语音模型在 E2E-ASR 中的潜在应用,发现在一些 ASR benchmark corpora 上,使用预训练模型能够超越当前最先进的识别性能。其中,HuBERT 模型表现尤为突出,实验代码和模型参数已开源。
Oct, 2021
本文提出了一种自监督的音频表征学习方法并将其应用于多种非语音音频任务,这种自监督的预训练可以将标记数据需求减少三分之二,并在 AudioSet 基准测试中通过声音自主训练实现了 0.415 的平均平均精度(mAP)得分,在多个下游任务中,我们的 fine-tuned conformers 也超越或匹配以往以监督方式预训练的系统的性能。
Oct, 2021
利用中间层监督自监督学习(ILS-SSL)对语音预训练模型进行优化,可以更好地集中于音频内容信息学习,从而实现识别性能的提高,并且在语言模型不被使用情况下,相对字错率下降23.5%。
Dec, 2021
本研究通过定量分析情感语料库探索了一种流行的自我监督模型——wav2vec 2.0,主要证明了:1)wav2vec 2.0似乎会丢弃不太有用于词汇识别的语用信息;2)对于情感识别,只使用中间层的表示与对多个层求平均后的表示效果相当,在某些情况下,只使用最后一层的表示效果最差;3)现有的自我监督模型可能不是利用非词汇特征的下游任务的最佳解决方案,为该领域未来的研究提供新的发现和理论基础。
Oct, 2022
本研究使用基于规范相关性分析(CCA)的轻量级分析工具, 考察了多种最近模型的中间表示,发现它们所编码的属性在不同层次上发展,变化与预训练目标的选择有关, 进一步探究了这种分析在下游任务中的实用性, 并发现CCA趋势为选择下游任务感兴趣的层提供了可靠的指导, 单层性能往往与使用所有层相当或更好,这意味着更有效利用预训练模型的启示。
Nov, 2022
本文评估了自我监督语音模型的学习表示与人类语音的差异,结果表明这些模型在语音数据的优化和高维架构的帮助下成功地捕捉了语音的基本音素和音位特征,尤其是 speech-trained HuBERT 模型实现了抽象音位差异的低噪声和低维子空间。
Jun, 2023
本研究发现,不同的自监督语音模型可以在不同的层次编码语言特征,在中间层最大程度地捕获了词级的信息,同时在较高层保留了发音等低层次信息,并用在无额外参数的情况下测试了这些模型的层次表现,同时发现使用HuBERT或WavLM的最佳表现层可以实现与更复杂的方法相媲美的词分割和语义句子相似性的表现。
Jun, 2023
从信息论的角度出发,了解自监督语音表示学习的现有方法,通过使用互信息来开发度量方法,从而帮助模型设计和选择,并通过线性探测来评估表示的可访问性,展示模型在层次线性探测和语音识别上的性能。
Jan, 2024