音韵学反演：对语言不流利的言语进行声学到言语器官的转换：在预训练的自监督表征中是否有优势？

Sep, 2023

音韵学反演：对语言不流利的言语进行声学到言语器官的转换：在预训练的自监督表征中是否有优势？

Acoustic-to-articulatory inversion for dysarthric speech: Are pre-trained self-supervised representations favorable?

Sarthak Kumar Maharana, Krishna Kamal Adidam, Shoumik Nandi, Ajitesh Srivastava

TL;DR使用预先训练的自监督学习模型，对发音不清的言语进行声学到发音学的逆向映射，通过条件化 x-vectors 来训练 BLSTM 网络，使用不同的预先训练特征进行低资源条件下的挑战性声学到发音学逆向映射任务，在实验中观察到 DeCoAR 在细调方案中相对于 MFCC 的皮尔森相关系数分别在健康控制组和患者组上提高了约 1.81% 和约 4.56%，同时发现具有特征重构或未来时间步预测任务的 SSL 网络（如 wav2vec、APC 和 DeCoAR）预测发音不清的发声轨迹的性能表现良好。

Abstract

$ $acoustic-to-articulatory inversion (AAI) involves mapping from the acoustic space to the articulatory space. Signal-processing features like the MFCCs, have been widely used for the AAI task. For subjects with dysarthric speech, AAI is challenging because of an imprecise and indisti

acoustic-to-articulatory inversion dysarthric speech pre-trained self-supervised learning models blstm network ssl networks

发现论文，激发创造

利用跨领域声 — 口倒置特征进行非正常言语识别

该论文提出了一种跨领域的声学 - 发音反演方法，使用神经网络对发音特征进行建模，通过应用该方法改善了语音障碍患者的语音识别表现。

Mar, 2022

语音的自监督模型推断通用的发音机制

通过研究自监督学习模型，本文展示了模型对语音内部表征与不同方面的关联，以及模型将声学信息转化为语音信号基础的原因动力学的能力，同时发现这种抽象几乎在所有语言中都有重叠，尤其喜欢同一音韵系统的语言。此外，研究还表明使用简单仿射变换，声学到语音的反演能力可以跨发音者、性别、语言和方言传递，显示了这一属性的普适性。这些结果揭示了自监督学习模型内部机制，对其卓越性能至关重要，同时为可解释性和基于语音科学的语言不可知通用语音工程模型开辟了新的方向。

Oct, 2023

跟我复读：通过模仿发音实现声学到发音器官映射的自监督学习

本文提出了一种语音合成的计算模型，该模型结合了以神经网络为基础的喉咙模型、基于深度神经网络的预测模型和基于递归神经网络的反演模型，从声音数据中自主训练。结果表现出了令人鼓舞的效果。

Apr, 2022

基于 DNN 的声学到发音器反演，使用超声舌像

本研究采用深度神经网络方法，通过分析声音信号，逆推计算日常生活中使用的超声成像技术下的舌头构造，研究采用特征点空间和原始超声图像两种方式表征舌头构造信息的效果，并用 MSE、SSIM 等质量指标对结果进行测试与总结。

Apr, 2019

利用 VQ-VAE 从口腔和声学特征进行自监督语音单元发现

使用关节建模和深度学习研究了如何在自我监督情况下使用关节信息发现语音单元，并在实验中发现联合使用关节和语音学模态可以更准确地表示这些语音学维度。

Jun, 2022

通过自监督嵌入和增强道变量改进语音逆转

通过结合利用自我监督学习模型和改进的几何变换模型，我们提高了从 0.7452 到 0.8141 的皮尔逊积矩相关系数（PPMC）得分，从而增加了 6.9％，从而突出了来自自我监督学习模型和改进的几何变换模型对语音反演系统功能的重大影响。

Sep, 2023

使用多分辨率声谱时序表示的声学到口腔运动的语音反演

本研究评估了利用多分辨率频谱时间特征作为声学特征对语音信号进行表达，从而从听觉皮层表征语音信号的好处，以推测相应信号的发音学特征。研究使用了威斯康辛大学 X 光微束（XRMB）数据库的语音信号来训练前馈深度神经网络（DNN）以估计 6 个道路变量的发音轨迹。实验结果表明，该方法与利用 Mel 频率倒谱系数的先前实验相比，能达到更高的相关性（0.675）。

Mar, 2022

有监督的声学嵌入及其在不同语言之间的可转移性

本文研究了使用自监督预训练技术来提高语音识别的准确性，发现在监督学习框架中，利用不同的预训练自监督特征作为 Acoustic Word Embeddings 的输入是最有效的方法，并且这种方法可实现跨语言迁移。

Jan, 2023

将语音信号转换为超声舌影像数据的音频 - 文本扩散模型

本文提出了一种音频文本扩散模型用于 UTI 数据生成任务，通过编码个人的固有声学特征和与舌头运动相关的 ASR 转录，最终生成了具有清晰舌轮廓的高质量 UTI 数据，对于语言分析和临床评估至关重要。

Mar, 2024

自监督学习语音中发音道模拟的证据

本文研究了自监督学习模型与电磁发音学之间的联系，发现这些模型学习到了与语音连续性运动高度相关的表示，并建议这为人工智能技术的未来发展带来了新的启示。

Oct, 2022