自监督语音模型的分层比较分析
本研究使用一套分析工具研究一款较新的波形自编码预训练语音表征模型,发现其中间表征向量所包含的声学信息和语言信息内容,并研究了自动语音识别(ASR)微调对这些观察结果产生的影响,为此提出了一个修改方案,并证明其在低资源设置中提高了单词错误率的表现。
Jul, 2021
本研究发现,不同的自监督语音模型可以在不同的层次编码语言特征,在中间层最大程度地捕获了词级的信息,同时在较高层保留了发音等低层次信息,并用在无额外参数的情况下测试了这些模型的层次表现,同时发现使用 HuBERT 或 WavLM 的最佳表现层可以实现与更复杂的方法相媲美的词分割和语义句子相似性的表现。
Jun, 2023
本文分析了使用 CNN、LSTM 和 Transformer 等网络模型进行端到端自动语音识别模型训练时层之间的内部动态,通过规范相关性分析和中心核对齐,发现 CNN 层内的神经表示随着层深度的增加而表现出层级相关性依赖性,而这种行为在 LSTM 架构中不会观察到,但在 Transformer 编码器层中会出现不规则的系数相关性随神经深度的增加而增加,这些结果提供了神经体系结构对语音识别性能的作用的新见解,可用作构建更好的语音识别模型的指示器。
May, 2022
本文分析了几种最先进的自监督语音表示中的电话和说话者信息的空间组织,并使用表示相似性分析测量不同层如何编码基本声学参数,例如共振峰和音高,进一步使用非参数统计测试研究每个表示在电话或说话者类别上进行聚集的程度,结果表明,模型根据预训练时使用的目标任务不同而以不同的方式表示这些语音属性。
Feb, 2023
该研究探索了自监督学习模型在捕捉语音和说话者表示方面的能力,并发现具体层次的语音模型更专注于捕捉语言信息,而说话者模型则更注重对说话者表示的提炼。
Jan, 2024
本文回顾了目前人类低级听觉处理的现有模型,并利用自学语言模型技术创建了新的人类听觉系统的先进模型。结果表明,与声学基线、音素特征和监督模型相比,来自自监督模型中间层的表示可以显著提高对听觉皮层的 fMRI 记录的预测性能,并且不同的听觉处理区域对信息的不同语言层次表现出偏好。
May, 2022
本文评估了自我监督语音模型的学习表示与人类语音的差异,结果表明这些模型在语音数据的优化和高维架构的帮助下成功地捕捉了语音的基本音素和音位特征,尤其是 speech-trained HuBERT 模型实现了抽象音位差异的低噪声和低维子空间。
Jun, 2023
利用奇异值典型相关分析 (SVCCA),我们分析了一个在 22 种语言上进行训练的多语言端到端语音翻译模型的表示学习。我们通过 SVCCA 估计了不同语言和层之间的表示相似性,增进了我们对多语言语音翻译功能及其与多语言神经机器翻译的潜在联系的理解。通过对分析的结论,我们提出了解除对低资源语言的数据限制,将其与语言相关的高资源语言相结合的方法,以提供更有效的多语言端到端语音翻译。
Oct, 2023
研究使用自我监督的神经模型从语音中提取声学嵌入,计算非英语母语和英语母语以及挪威方言发音之间的基于单词的差异,并发现使用转换器的神经模型提取的语音表示与人类感知匹配得更好。
Nov, 2020
本文研究了零资源语音处理中基于帧级特征的声学词嵌入模型,发现使用自监督预测编码和对应自编码器模型等代替传统的 MFCC 作为输入,可以在英语和 Xitsonga 数据的单词辨别任务中取得更好的效果,并且能跨语种使用。
Dec, 2020