利用 X 射线微束数据的几何变换增强语音发音分析
通过使用仅对健康人群进行训练的深度跨模态翻译器,实现对语音运动异常及其对应语音声学的检测,以区分健康人群和患者,从而提高对语音质量的评估和治疗策略的发展。
Feb, 2024
本研究评估了利用多分辨率频谱时间特征作为声学特征对语音信号进行表达,从而从听觉皮层表征语音信号的好处,以推测相应信号的发音学特征。研究使用了威斯康辛大学 X 光微束(XRMB)数据库的语音信号来训练前馈深度神经网络(DNN)以估计 6 个道路变量的发音轨迹。实验结果表明,该方法与利用 Mel 频率倒谱系数的先前实验相比,能达到更高的相关性(0.675)。
Mar, 2022
本文提出了一种跨领域和跨语言的 A2A 反演方法,利用 24 小时 TaL 语料库的并行音频和超声舌成像数据,将其在 A2A 模型预训练时进行交叉领域和跨语言适应,以产生基于超声口腔影像的发音特征。实验表明,将生成的发音特征纳入自动语音识别系统中,相对于仅使用声学特征的基线 TDNN 和 Conformer ASR 系统,应用数据增强、扬声器适应和跨系统多通道解码后,单词或字符错误率降低了最多 4.75%、2.59%和 2.07%的绝对误差(相对误差最高可达 14.69%、10.64%和 22.72%)。
Jun, 2022
利用实时磁共振成像技术进行声道建模时的挑战和解决方案,通过视觉分割和多模态算法提高 MR 图像中声道部分的分割准确性,并释放了一个包含 75 个说话人的 RT-MRI 数据集的标注,增加了 9 倍以上的公共 RT-MRI 声道数据数量。
Jun, 2024
本文介绍了一个包含同时记录声音与口腔运动数据的新数据库。通过超声视频记录的口腔运动数据可以对语音产生过程中的舌头上轮廓进行可视化。声学数据由定向心形麦克风采集的 30 个短句组成。此数据库包括来自哥伦比亚圣塔德尔地区的 17 名年轻志愿者(8 男性和 9 女性),他们声称没有任何语音病理。
Aug, 2023
本研究采用深度神经网络方法,通过分析声音信号,逆推计算日常生活中使用的超声成像技术下的舌头构造,研究采用特征点空间和原始超声图像两种方式表征舌头构造信息的效果,并用 MSE、SSIM 等质量指标对结果进行测试与总结。
Apr, 2019
本篇研究提出了一种新方法,通过音频输入生成 3D 说话人头部动画,并利用面部的传动部位上的控制点来描述语音相关的运动,并利用两个不同的模型来实现;该方法具有身份不相关性,可实现任何用户的高质量面部动画。利用陆标在 3D 说话人头部动画生成中提供了各种优点,例如一致性,可靠性和不需要手动注释。
Jun, 2023
本文研究自动语音识别领域的核心难题:如何高效地加入第二语音素,并通过关节特征分析对其进行准确建模及应用其在母语语音数据及英语书籍语音数据上。实验表明,该方法不仅为 L2 训练提供了表现改进的有效手段,而且在 L2 和 L1 训练下可以减少算法的性能损失。
Jun, 2023
本文提出了一种学习图像中物体变换和规范表面映射关系的方法,通过强制一致性来获得监督信号,实验结果表明只使用前景掩码标签就可以学习得到更准确的规范表面映射预测和更有意义的物体变换。
Apr, 2020
针对侧面头颅 X 射线图片的颅测定点检测在特定牙科疾病诊断中起着关键作用,通过以多个分辨率作为输入整合多种感受野的图像金字塔结构来训练一系列具有不同感受野的模型,其对不同的定点具有不同的检测准确率影响。此外,我们还采用了多种数据增强技术来增强模型在不同设备和测量选择方面的鲁棒性。我们将这种方法应用于 2023 年侧面头颅 X 射线图像颅测定点检测挑战中,在最终测试阶段实现了 1.62 mm 的平均径向误差(MRE)和 74.18% 的成功检测率(SDR)。
Oct, 2023