利用 X 射线微束数据的几何变换增强语音发音分析

May, 2023

利用 X 射线微束数据的几何变换增强语音发音分析

Enhancing Speech Articulation Analysis using a Geometric Transformation of the X-ray Microbeam Dataset

Ahmed Adel Attia, Mark Tiede, Carol Y. Espy-Wilson

TL;DR本文提出了一种新的几何变换方法，将解剖标志物的 X-Y 坐标映射到唇缝、唇前突出、舌身收缩位置、舌身收缩程度、舌尖收缩位置和舌尖收缩程度六个相对量度中，以改善解剖物点的准确度与鞍骨微束数据集中的嗓音区域解剖图像的映射。

Abstract

Accurate analysis of speech articulation is crucial for speech analysis. However, X-Y coordinates of articulators strongly depend on the anatomy of the speakers and the variability of pellet placements, and existing methods for mapping →

speech articulation x-ray microbeam dataset anatomical landmarks geometric transformation vocal tract anatomy

发现论文，激发创造

通过 MRI 标记的 4D 运动场的跨模态翻译进行语音运动异常检测

通过使用仅对健康人群进行训练的深度跨模态翻译器，实现对语音运动异常及其对应语音声学的检测，以区分健康人群和患者，从而提高对语音质量的评估和治疗策略的发展。

Feb, 2024

使用多分辨率声谱时序表示的声学到口腔运动的语音反演

本研究评估了利用多分辨率频谱时间特征作为声学特征对语音信号进行表达，从而从听觉皮层表征语音信号的好处，以推测相应信号的发音学特征。研究使用了威斯康辛大学 X 光微束（XRMB）数据库的语音信号来训练前馈深度神经网络（DNN）以估计 6 个道路变量的发音轨迹。实验结果表明，该方法与利用 Mel 频率倒谱系数的先前实验相比，能达到更高的相关性（0.675）。

Mar, 2022

利用跨领域和跨语言的超声舌影像特征进行老年人和发音障碍者语音识别

本文提出了一种跨领域和跨语言的 A2A 反演方法，利用 24 小时 TaL 语料库的并行音频和超声舌成像数据，将其在 A2A 模型预训练时进行交叉领域和跨语言适应，以产生基于超声口腔影像的发音特征。实验表明，将生成的发音特征纳入自动语音识别系统中，相对于仅使用声学特征的基线 TDNN 和 Conformer ASR 系统，应用数据增强、扬声器适应和跨系统多通道解码后，单词或字符错误率降低了最多 4.75％、2.59％和 2.07％的绝对误差（相对误差最高可达 14.69％、10.64％和 22.72％）。

Jun, 2022

多模态声道建模的分割

利用实时磁共振成像技术进行声道建模时的挑战和解决方案，通过视觉分割和多模态算法提高 MR 图像中声道部分的分割准确性，并释放了一个包含 75 个说话人的 RT-MRI 数据集的标注，增加了 9 倍以上的公共 RT-MRI 声道数据数量。

Jun, 2024

声道动力学超声图像序列的小型词汇数据库

本文介绍了一个包含同时记录声音与口腔运动数据的新数据库。通过超声视频记录的口腔运动数据可以对语音产生过程中的舌头上轮廓进行可视化。声学数据由定向心形麦克风采集的 30 个短句组成。此数据库包括来自哥伦比亚圣塔德尔地区的 17 名年轻志愿者（8 男性和 9 女性），他们声称没有任何语音病理。

Aug, 2023

基于 DNN 的声学到发音器反演，使用超声舌像

本研究采用深度神经网络方法，通过分析声音信号，逆推计算日常生活中使用的超声成像技术下的舌头构造，研究采用特征点空间和原始超声图像两种方式表征舌头构造信息的效果，并用 MSE、SSIM 等质量指标对结果进行测试与总结。

Apr, 2019

从语音中学习地标运动以获取说话人不可知的 3D 语音生成

本篇研究提出了一种新方法，通过音频输入生成 3D 说话人头部动画，并利用面部的传动部位上的控制点来描述语音相关的运动，并利用两个不同的模型来实现；该方法具有身份不相关性，可实现任何用户的高质量面部动画。利用陆标在 3D 说话人头部动画生成中提供了各种优点，例如一致性，可靠性和不需要手动注释。

Jun, 2023

利用发音器官学习 L2 音素以提高语音识别鲁棒性

本文研究自动语音识别领域的核心难题：如何高效地加入第二语音素，并通过关节特征分析对其进行准确建模及应用其在母语语音数据及英语书籍语音数据上。实验表明，该方法不仅为 L2 训练提供了表现改进的有效手段，而且在 L2 和 L1 训练下可以减少算法的性能损失。

Jun, 2023

关节感知规范表面映射

本文提出了一种学习图像中物体变换和规范表面映射关系的方法，通过强制一致性来获得监督信号，实验结果表明只使用前景掩码标签就可以学习得到更准确的规范表面映射预测和更有意义的物体变换。

Apr, 2020

多分辨率融合的全自动颅面测量地标检测

针对侧面头颅 X 射线图片的颅测定点检测在特定牙科疾病诊断中起着关键作用，通过以多个分辨率作为输入整合多种感受野的图像金字塔结构来训练一系列具有不同感受野的模型，其对不同的定点具有不同的检测准确率影响。此外，我们还采用了多种数据增强技术来增强模型在不同设备和测量选择方面的鲁棒性。我们将这种方法应用于 2023 年侧面头颅 X 射线图像颅测定点检测挑战中，在最终测试阶段实现了 1.62 mm 的平均径向误差（MRE）和 74.18% 的成功检测率（SDR）。

Oct, 2023