Mar, 2024

将语音信号转换为超声舌影像数据的音频 - 文本扩散模型

TL;DR本文提出了一种音频文本扩散模型用于 UTI 数据生成任务,通过编码个人的固有声学特征和与舌头运动相关的 ASR 转录,最终生成了具有清晰舌轮廓的高质量 UTI 数据,对于语言分析和临床评估至关重要。