使用多分辨率声谱时序表示的声学到口腔运动的语音反演

Mar, 2022

使用多分辨率声谱时序表示的声学到口腔运动的语音反演

Acoustic To Articulatory Speech Inversion Using Multi-Resolution Spectro-Temporal Representations Of Speech Signals

Rahil Parikh, Nadee Seneviratne, Ganesh Sivaraman, Shihab Shamma, Carol Espy-Wilson

TL;DR本研究评估了利用多分辨率频谱时间特征作为声学特征对语音信号进行表达，从而从听觉皮层表征语音信号的好处，以推测相应信号的发音学特征。研究使用了威斯康辛大学 X 光微束（XRMB）数据库的语音信号来训练前馈深度神经网络（DNN）以估计 6 个道路变量的发音轨迹。实验结果表明，该方法与利用 Mel 频率倒谱系数的先前实验相比，能达到更高的相关性（0.675）。

Abstract

multi-resolution spectro-temporal features of a speech signal represent how the brain perceives sounds by tuning cortical cells to different spectral and temporal modulations. These features produce a higher dimensional representation of the speech signals. The purpose of this paper is

multi-resolution spectro-temporal features auditory cortex articulatory features deep neural network mel frequency cepstral coefficients

发现论文，激发创造

利用跨领域声 — 口倒置特征进行非正常言语识别

该论文提出了一种跨领域的声学 - 发音反演方法，使用神经网络对发音特征进行建模，通过应用该方法改善了语音障碍患者的语音识别表现。

Mar, 2022

直接从波形中学习多尺度特征

本文详细介绍了一种使用卷积滤波器的方法，可以通过减少步幅增加时间分辨率，通过增加滤波器增加频率分辨率以提高语音识别精度。我们同时在多个尺度上学习，从而发现更高效的表示方法，并且相对于基于光谱图的同样参数网络训练，内部语音测试集上的词语错误率下降了 20.7％。

Mar, 2016

建模语音变化的神经表征

研究使用自我监督的神经模型从语音中提取声学嵌入，计算非英语母语和英语母语以及挪威方言发音之间的基于单词的差异，并发现使用转换器的神经模型提取的语音表示与人类感知匹配得更好。

Nov, 2020

深度上下文化声学表示用于半监督语音识别

我们提出了一种新的半监督自动语音识别方法，利用表示学习从无标注音频数据中重建滤波器组特征，并使用得到的深度上下文化的声学表示训练基于 CTC 的端到端自动语音识别系统，实验表明我们的方法能够显著提高系统性能并大幅减少所需标注数据量。

Dec, 2019

多模态声道建模的分割

利用实时磁共振成像技术进行声道建模时的挑战和解决方案，通过视觉分割和多模态算法提高 MR 图像中声道部分的分割准确性，并释放了一个包含 75 个说话人的 RT-MRI 数据集的标注，增加了 9 倍以上的公共 RT-MRI 声道数据数量。

Jun, 2024

音韵学反演：对语言不流利的言语进行声学到言语器官的转换：在预训练的自监督表征中是否有优势？

使用预先训练的自监督学习模型，对发音不清的言语进行声学到发音学的逆向映射，通过条件化 x-vectors 来训练 BLSTM 网络，使用不同的预先训练特征进行低资源条件下的挑战性声学到发音学逆向映射任务，在实验中观察到 DeCoAR 在细调方案中相对于 MFCC 的皮尔森相关系数分别在健康控制组和患者组上提高了约 1.81% 和约 4.56%，同时发现具有特征重构或未来时间步预测任务的 SSL 网络（如 wav2vec、APC 和 DeCoAR）预测发音不清的发声轨迹的性能表现良好。

Sep, 2023

跨语言自监督语音表征，提高口吃症患者的语音识别能力

使用预训练 Wav2Vec、Hubert 和 XLSR 模型的声学特征训练自动语音识别系统，对患有言语障碍的英语、西班牙语和意大利语使用者进行识别，结果表明相较于 Fbank 特征，使用 XLSR 特征可将识别错误率分别降低 6.8%、22.0% 和 7.0%。

Apr, 2022

深度神经卷积矩阵分解在口形表示分解中的应用

本研究探讨从口型运动学信号分解得到的语音表征，采用神经实现的卷积稀疏矩阵分解技术将口型数据分解为可解释的手势和手势得分，进而成功编码语音学信息，为深度神经网络的信息化、可读性、可解释性和高效性提供了可行的指导。

Apr, 2022

利用跨领域和跨语言的超声舌影像特征进行老年人和发音障碍者语音识别

本文提出了一种跨领域和跨语言的 A2A 反演方法，利用 24 小时 TaL 语料库的并行音频和超声舌成像数据，将其在 A2A 模型预训练时进行交叉领域和跨语言适应，以产生基于超声口腔影像的发音特征。实验表明，将生成的发音特征纳入自动语音识别系统中，相对于仅使用声学特征的基线 TDNN 和 Conformer ASR 系统，应用数据增强、扬声器适应和跨系统多通道解码后，单词或字符错误率降低了最多 4.75％、2.59％和 2.07％的绝对误差（相对误差最高可达 14.69％、10.64％和 22.72％）。

Jun, 2022

基于 DNN 的声学到发音器反演，使用超声舌像

本研究采用深度神经网络方法，通过分析声音信号，逆推计算日常生活中使用的超声成像技术下的舌头构造，研究采用特征点空间和原始超声图像两种方式表征舌头构造信息的效果，并用 MSE、SSIM 等质量指标对结果进行测试与总结。

Apr, 2019