语音的自监督模型推断通用的发音机制

Oct, 2023

语音的自监督模型推断通用的发音机制

Self-Supervised Models of Speech Infer Universal Articulatory Kinematics

Cheol Jun Cho, Abdelrahman Mohamed, Alan W Black, Gopala K. Anumanchipalli

TL;DR通过研究自监督学习模型，本文展示了模型对语音内部表征与不同方面的关联，以及模型将声学信息转化为语音信号基础的原因动力学的能力，同时发现这种抽象几乎在所有语言中都有重叠，尤其喜欢同一音韵系统的语言。此外，研究还表明使用简单仿射变换，声学到语音的反演能力可以跨发音者、性别、语言和方言传递，显示了这一属性的普适性。这些结果揭示了自监督学习模型内部机制，对其卓越性能至关重要，同时为可解释性和基于语音科学的语言不可知通用语音工程模型开辟了新的方向。

Abstract

self-supervised learning (SSL) based models of speech have shown remarkable performance on a range of downstream tasks. These state-of-the-art models have remained blackboxes, but many recent studies have begun "probing" models like HuBERT, to correlate their internal representations t

self-supervised learning ssl models inference of articulatory kinematics acoustic-to-articulatory inversion universal models

发现论文，激发创造

自监督学习语音中发音道模拟的证据

本文研究了自监督学习模型与电磁发音学之间的联系，发现这些模型学习到了与语音连续性运动高度相关的表示，并建议这为人工智能技术的未来发展带来了新的启示。

Oct, 2022

音频自监督学习：综述

本文综述了自监督学习在音频处理和语音处理领域中的应用，包括方法、实验和基准数据，并讨论了未来发展方向和存在的问题。

Mar, 2022

跟我复读：通过模仿发音实现声学到发音器官映射的自监督学习

本文提出了一种语音合成的计算模型，该模型结合了以神经网络为基础的喉咙模型、基于深度神经网络的预测模型和基于递归神经网络的反演模型，从声音数据中自主训练。结果表现出了令人鼓舞的效果。

Apr, 2022

音韵学反演：对语言不流利的言语进行声学到言语器官的转换：在预训练的自监督表征中是否有优势？

使用预先训练的自监督学习模型，对发音不清的言语进行声学到发音学的逆向映射，通过条件化 x-vectors 来训练 BLSTM 网络，使用不同的预先训练特征进行低资源条件下的挑战性声学到发音学逆向映射任务，在实验中观察到 DeCoAR 在细调方案中相对于 MFCC 的皮尔森相关系数分别在健康控制组和患者组上提高了约 1.81% 和约 4.56%，同时发现具有特征重构或未来时间步预测任务的 SSL 网络（如 wav2vec、APC 和 DeCoAR）预测发音不清的发声轨迹的性能表现良好。

Sep, 2023

自监督音频模型有效解释人类大脑对语音的反应

本文回顾了目前人类低级听觉处理的现有模型，并利用自学语言模型技术创建了新的人类听觉系统的先进模型。结果表明，与声学基线、音素特征和监督模型相比，来自自监督模型中间层的表示可以显著提高对听觉皮层的 fMRI 记录的预测性能，并且不同的听觉处理区域对信息的不同语言层次表现出偏好。

May, 2022

SpeechGLUE：自监督语音模型能否有效获取语言知识？

本研究探讨了自监督学习技术对于语音表示及其所携带的语言信息的捕捉能力，并通过 SpeechGLUE 基准测试说明了此技术在语言理解任务方面表现不如基于文本的自监督学习，但优于基准模型，展示了它从无标签的语音数据中能够获取特定数量的语言能力。

Jun, 2023

自我监督语音模型的有效蒸馏在自动语音识别中的应用探究

本文旨在研究将 HuBERT 基于自监督学习的模型进行有效的蒸馏，用于自动语音识别。我们进行了综合研究，设计了一种简单有效的算法，将参数减少 17％，将推理速度翻倍，同时又能在功能上达到满意的性能降级。

Oct, 2022

通过自监督嵌入和增强道变量改进语音逆转

通过结合利用自我监督学习模型和改进的几何变换模型，我们提高了从 0.7452 到 0.8141 的皮尔逊积矩相关系数（PPMC）得分，从而增加了 6.9％，从而突出了来自自我监督学习模型和改进的几何变换模型对语音反演系统功能的重大影响。

Sep, 2023

自监督神经因子分析用于解开话语级语音表示的混杂信息

通过聚类方法和因子分析模型，使用自监督学习的特征对 SSL 模型进行有监督微调，可用于说话人、情感和语言识别等级别任务，并提供更具有区分性的音频特征表示，此方法在 SUPERB 基准测试中表现良好。

May, 2023

自监督语音模型在音频表示方面的功效

本研究提出融合自监督学习语音模型嵌入的集成框架，旨在探究其在音频和非语音任务中的表示能力，实验证明该框架普遍优于当前最先进的自监督学习语音 / 音频模型，特别在面对细粒度音乐任务时也表现出强大的能力。

Sep, 2022