多模态声道建模的分割

Jun, 2024

Multimodal Segmentation for Vocal Tract Modeling

Rishi Jain, Bohan Yu, Peter Wu, Tejas Prabhune, Gopala Anumanchipalli

TL;DR利用实时磁共振成像技术进行声道建模时的挑战和解决方案，通过视觉分割和多模态算法提高 MR 图像中声道部分的分割准确性，并释放了一个包含 75 个说话人的 RT-MRI 数据集的标注，增加了 9 倍以上的公共 RT-MRI 声道数据数量。

Abstract

Accurate modeling of the vocal tract is necessary to construct articulatory representations for interpretable speech processing and linguistics. However, vocal tract modeling is challenging because many internal articulators are occluded from external motion capture technologies. Real-

vocal tract modeling real-time magnetic resonance imaging deep labeling strategy multimodal algorithm rt-mri dataset

发现论文，激发创造

使用多分辨率声谱时序表示的声学到口腔运动的语音反演

本研究评估了利用多分辨率频谱时间特征作为声学特征对语音信号进行表达，从而从听觉皮层表征语音信号的好处，以推测相应信号的发音学特征。研究使用了威斯康辛大学 X 光微束（XRMB）数据库的语音信号来训练前馈深度神经网络（DNN）以估计 6 个道路变量的发音轨迹。实验结果表明，该方法与利用 Mel 频率倒谱系数的先前实验相比，能达到更高的相关性（0.675）。

Mar, 2022

通过 MRI 标记的 4D 运动场的跨模态翻译进行语音运动异常检测

通过使用仅对健康人群进行训练的深度跨模态翻译器，实现对语音运动异常及其对应语音声学的检测，以区分健康人群和患者，从而提高对语音质量的评估和治疗策略的发展。

Feb, 2024

RapVerse: 从文本生成连贯的歌词与整体身体动作

通过将三维整体身体动作和唱歌声音联合生成，我们的研究工作在文本歌词输入方面取得了进展，并建立了整体人体动作和声音生成的新基准。

May, 2024

MultiQT: 实时问句跟踪的多模态学习技术

提出了一种新的多模态方法，将语音和其文本表示作为两个视图进行联合学习，从而实现语音实时序列标记。该模型应用于电话紧急医疗服务，作为紧急呼叫中心决策支持系统中的一部分，取得了显著的改进。

May, 2020

声道动力学超声图像序列的小型词汇数据库

本文介绍了一个包含同时记录声音与口腔运动数据的新数据库。通过超声视频记录的口腔运动数据可以对语音产生过程中的舌头上轮廓进行可视化。声学数据由定向心形麦克风采集的 30 个短句组成。此数据库包括来自哥伦比亚圣塔德尔地区的 17 名年轻志愿者（8 男性和 9 女性），他们声称没有任何语音病理。

Aug, 2023

VisemeNet：音频驱动的动画师中心语音动画

本文提出了一种基于深度学习的新型方法，用于直接从输入音频中产生驱动 JALI 或标准 FACS 制作面部捕捉的动画师中心音频运动曲线。

May, 2018

VoViT: 基于图论的低延迟音视频语音分离 Transformer

本文提出了一种音频 - 视觉声音分离方案，在两种不同场景（语音和唱歌）中实现了低时延的最新成果。该模型基于两级网络，采用轻量级图卷积网络从面部标记中提取运动线索，然后将视觉和音频特征输入到音频 - 视觉转换器中，为目标源的隔离估计提供相当不错的结果。在第二阶段，利用音频网络增强了主要的声音。我们进行了不同的消融研究和与最先进的方法比较。最后，我们探讨了在唱声分离任务中训练语音分离模型的可转移性。

Mar, 2022

AVFace: 面向详细的音频视觉 4D 人脸重建

该研究提出了一种基于多模态的方法来实现从单目视频中进行 4D 人脸重建，并使用 AVFace 技术准确地重构任何人的面部和唇部运动，而无需任何 3D 地面真实测试。

Apr, 2023

机器人辅助下口腔气管插管的仿真到真实分割

本文提出了一种基于虚拟环境生成口咽器官数据，采用 IoU-Ranking Blend (IRB) 和风格转移技术的区域自适应 Sim-to-Real 方法进行影像分割的方法，实验结果表明，该方法在域自适应模型上具有卓越的性能，可以提高分割精度和训练稳定性，具有广阔的机器人辅助插管手术和智能手术导航应用潜力。

May, 2023

DualTalker: 语音驱动的三维面部动画的跨模态双重学习方法

通过交叉模态的双学习框架和辅助的模态一致性损失，提高数据使用效率、关联交叉模态的依赖关系，并增强微妙面部表情动力学的映射，从而在语音驱动三维面部动画中提高性能。

Nov, 2023