自监督语音模型是否具有类人感知偏见？

May, 2022

自监督语音模型是否具有类人感知偏见？

Do self-supervised speech models develop human-like perception biases?

Juliette Millet, Ewan Dunbar

TL;DR通过研究 wav2vec 2.0，HuBERT 和 CPC 三种最先进的自监督模型的表示空间，与法语和英语人类听众的感知空间作比较，我们发现 CPC 模型具有微小的母语语言效应，但 wav2vec 2.0 和 HuBERT 似乎发展出了一种通用的语音感知空间，而不是针对特定语言的。与受监督的电话识别器的预测比较表明，所有三种自监督的模型捕获了相对精细的知觉现象，而受监督的模型则更擅长捕获听众母语的更粗的电话级效应。

Abstract

self-supervised models for speech processing form representational spaces without using any external labels. Increasingly, they appear to

self-supervised models representational spaces speech processing native language effect perceptual spaces

发现论文，激发创造

自监督音频模型有效解释人类大脑对语音的反应

本文回顾了目前人类低级听觉处理的现有模型，并利用自学语言模型技术创建了新的人类听觉系统的先进模型。结果表明，与声学基线、音素特征和监督模型相比，来自自监督模型中间层的表示可以显著提高对听觉皮层的 fMRI 记录的预测性能，并且不同的听觉处理区域对信息的不同语言层次表现出偏好。

May, 2022

自监督模型与人类中的演讲者身份编码评估

自我监督表示与声音识别中的说话人身份有关，并能更好地理解强大网络中不同层次的声学信息表示，通过评估声学、语音、韵律和语言变体之间的说话人识别准确性，对比模型和人类的编码空间相似性，旨在挑战距离度量作为说话人接近程度的代理，并展示某些模型能够预测自然刺激下听觉和语言区域的脑部反应。

Jun, 2024

自监督语音表示学习：综述

本论文综述了自监督语音表示学习的方法及其与其他研究领域的联系，讨论了将学习到的表示推广到语音识别以外的应用的最新研究进展。

May, 2022

通过自监督学习构建一个真实的大脑语音处理模型

本论文针对语音识别的问题，提出自我监督学习可能是解决这一问题的一个更好的选择，核心是自己生成特征，通过自我监督可以获得和人脑工作方式类似的神经网络模型，帮助理解语言习得和人脑在语音处理方面的机理。

Jun, 2022

自监督预测编码模型在正交子空间中编码说话者和语音信息

本文研究自监督语音表示的特征空间分布，通过主成分分析得出编码说话者和语音的正交子空间，提出一种新的说话者标准化方法，消除说话者信息，对于去除语音中的说话者信息的任务表现出色。

May, 2023

自监督语音模型探测音素和音位信息：以送气现象为案例研究

本文评估了自我监督语音模型的学习表示与人类语音的差异，结果表明这些模型在语音数据的优化和高维架构的帮助下成功地捕捉了语音的基本音素和音位特征，尤其是 speech-trained HuBERT 模型实现了抽象音位差异的低噪声和低维子空间。

Jun, 2023

面向效率的自监督语音表示学习方法

自我监督学习在计算机视觉、自然语言处理、生物学和语音等多个领域取得突破，然而现有方法的计算成本较高，限制了模型的部署、训练数据集的规模以及拥有大型自我监督模型的研究机构的数量。因此，需要进一步研究以解决自我监督表示学习中高计算成本的问题。

Dec, 2023

利用自监督语音表示进行 L2 熟练度评估

本文介绍一种基于自监督语音表示的自动口语评估系统，并将其与传统的基于语音识别和基于文本的评估系统进行比较。研究结果表明，该系统可以在适当情况下与其他系统媲美甚至取得更好的表现。

Nov, 2022

无监督神经语音表示学习概述

本文回顾了过去十年中无监督表示学习在语音处理领域的发展，归纳了自监督方法和概率隐变量模型这两类主要模型，提出了全面的分类方法，并讨论了这两类模型。

Mar, 2022

自监督语音表示模型的分层分析

本研究使用一套分析工具研究一款较新的波形自编码预训练语音表征模型，发现其中间表征向量所包含的声学信息和语言信息内容，并研究了自动语音识别（ASR）微调对这些观察结果产生的影响，为此提出了一个修改方案，并证明其在低资源设置中提高了单词错误率的表现。

Jul, 2021