Mar, 2024
将语音信号转换为超声舌影像数据的音频 - 文本扩散模型
An Audio-textual Diffusion Model For Converting Speech Signals Into Ultrasound Tongue Imaging Data
Yudong Yang, Rongfeng Su, Xiaokang Liu, Nan Yan, Lan Wang
TL;DR本文提出了一种音频文本扩散模型用于 UTI 数据生成任务,通过编码个人的固有声学特征和与舌头运动相关的 ASR 转录,最终生成了具有清晰舌轮廓的高质量 UTI 数据,对于语言分析和临床评估至关重要。