自监督模型与人类中的演讲者身份编码评估

Jun, 2024

自监督模型与人类中的演讲者身份编码评估

Evaluating Speaker Identity Coding in Self-supervised Models and Humans

Gasser Elbanna

TL;DR自我监督表示与声音识别中的说话人身份有关，并能更好地理解强大网络中不同层次的声学信息表示，通过评估声学、语音、韵律和语言变体之间的说话人识别准确性，对比模型和人类的编码空间相似性，旨在挑战距离度量作为说话人接近程度的代理，并展示某些模型能够预测自然刺激下听觉和语言区域的脑部反应。

Abstract

speaker identity plays a significant role in human communication and is being increasingly used in societal applications, many through advances in machine learning. speaker identity perception is an essential cog

speaker identity voice recognition acoustic correlates self-supervised representations neurocognitive models

发现论文，激发创造

自监督语音模型是否具有类人感知偏见？

通过研究 wav2vec 2.0，HuBERT 和 CPC 三种最先进的自监督模型的表示空间，与法语和英语人类听众的感知空间作比较，我们发现 CPC 模型具有微小的母语语言效应，但 wav2vec 2.0 和 HuBERT 似乎发展出了一种通用的语音感知空间，而不是针对特定语言的。与受监督的电话识别器的预测比较表明，所有三种自监督的模型捕获了相对精细的知觉现象，而受监督的模型则更擅长捕获听众母语的更粗的电话级效应。

May, 2022

自监督音频模型有效解释人类大脑对语音的反应

本文回顾了目前人类低级听觉处理的现有模型，并利用自学语言模型技术创建了新的人类听觉系统的先进模型。结果表明，与声学基线、音素特征和监督模型相比，来自自监督模型中间层的表示可以显著提高对听觉皮层的 fMRI 记录的预测性能，并且不同的听觉处理区域对信息的不同语言层次表现出偏好。

May, 2022

自监督预测编码模型在正交子空间中编码说话者和语音信息

本文研究自监督语音表示的特征空间分布，通过主成分分析得出编码说话者和语音的正交子空间，提出一种新的说话者标准化方法，消除说话者信息，对于去除语音中的说话者信息的任务表现出色。

May, 2023

自监督语音表示中的手机和扬声器空间组织

本文分析了几种最先进的自监督语音表示中的电话和说话者信息的空间组织，并使用表示相似性分析测量不同层如何编码基本声学参数，例如共振峰和音高，进一步使用非参数统计测试研究每个表示在电话或说话者类别上进行聚集的程度，结果表明，模型根据预训练时使用的目标任务不同而以不同的方式表示这些语音属性。

Feb, 2023

使用跨模态自监督进行解缠语音嵌入

本文旨在学习说话者身份的表示，利用自我监督学习目标，在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构，从而在大规模的 “野外” 对话者数据集上进行训练，并展示了其对于标准说话者识别性能的良好效果。

Feb, 2020

建模语音变化的神经表征

研究使用自我监督的神经模型从语音中提取声学嵌入，计算非英语母语和英语母语以及挪威方言发音之间的基于单词的差异，并发现使用转换器的神经模型提取的语音表示与人类感知匹配得更好。

Nov, 2020

通过感知的声音特质实现说话人身份的可解释表示

通过添加性别感知语音特征到 Consensus Auditory-Perceptual Evaluation of Voice（声音感知评估协议）中，基于感知声音特征的方法提供了一种成人声音性格的感知潜在空间，作为高层次人口统计学信息和低层次声学、物理或学习表示之间的中间抽象。与先前的观点相反，我们证明这些感知声音特征可以被非专家集体听到，并且进一步证明了以感知声音特征为基础的表示中所编码的信息可以通过多种语音表示进行预测。

Oct, 2023

自我监督解开说话人确认中的声音和内容

该研究提出了一种能同时模拟语音中的说话人特征和内容可变性的解缠结构框架，并通过使用三个高斯推理层实现，其中每个层由可学习的转换模型组成，能够提取出独特的语音组成成分。通过在 VoxCeleb 和 SITW 数据集上进行实验证实了该框架的有效性，其表现为等价错误率和最小 DCF 分别降低了 9.56％和 8.24％，而不需要额外的模型训练或数据，因此可以在实际应用中容易使用。

Oct, 2023

深度说话人嵌入架构中的残差信息

本文介绍了针对六个最新高性能的 DNN 体系结构提取出的演讲者嵌入的分析，重点关注它们能够从语音信号中真正区分讲话者身份的程度。结果表明，这些嵌入的区分能力非常高，但在所有已分析的体系结构中，残余信息仍呈现为与录音条件、语言内容和话语持续时间高度相关的形式。

Feb, 2023

自监督神经网络在人类语音上预训练能否辨别动物叫声？

本文探讨了在人类语音领域预训练的自监督学习模型是否可以用于生物声学领域，结果表明可以通过这种方式成功地从黄腹掌猴的声音中识别出不同的个体身份信息。

May, 2023