将语音信号转换为超声舌影像数据的音频 - 文本扩散模型

Mar, 2024

将语音信号转换为超声舌影像数据的音频 - 文本扩散模型

An Audio-textual Diffusion Model For Converting Speech Signals Into Ultrasound Tongue Imaging Data

Yudong Yang, Rongfeng Su, Xiaokang Liu, Nan Yan, Lan Wang

TL;DR本文提出了一种音频文本扩散模型用于 UTI 数据生成任务，通过编码个人的固有声学特征和与舌头运动相关的 ASR 转录，最终生成了具有清晰舌轮廓的高质量 UTI 数据，对于语言分析和临床评估至关重要。

Abstract

acoustic-to-articulatory inversion (AAI) is to convert audio into articulator movements, such as ultrasound tongue imaging (UTI) data. An issue of existing AAI methods is only using the personalized acoustic information to derive the general patterns of tongue motions, and thus the qua

acoustic-to-articulatory inversion uti data generation audio-textual diffusion model wav2vec 2.0 linguistic analysis

发现论文，激发创造

基于 DNN 的声学到发音器反演，使用超声舌像

本研究采用深度神经网络方法，通过分析声音信号，逆推计算日常生活中使用的超声成像技术下的舌头构造，研究采用特征点空间和原始超声图像两种方式表征舌头构造信息的效果，并用 MSE、SSIM 等质量指标对结果进行测试与总结。

Apr, 2019

利用跨领域和跨语言的超声舌影像特征进行老年人和发音障碍者语音识别

本文提出了一种跨领域和跨语言的 A2A 反演方法，利用 24 小时 TaL 语料库的并行音频和超声舌成像数据，将其在 A2A 模型预训练时进行交叉领域和跨语言适应，以产生基于超声口腔影像的发音特征。实验表明，将生成的发音特征纳入自动语音识别系统中，相对于仅使用声学特征的基线 TDNN 和 Conformer ASR 系统，应用数据增强、扬声器适应和跨系统多通道解码后，单词或字符错误率降低了最多 4.75％、2.59％和 2.07％的绝对误差（相对误差最高可达 14.69％、10.64％和 22.72％）。

Jun, 2022

儿童语音中原始超声波音素段的说话人无关分类

本文研究使用超声舌头成像技术对语音产生的过程进行可视化，并通过多种训练方案探讨了从原始超声记录中对语音的分类方法，研究表明，提供最少的额外讲话者信息可以有助于模型更好地推广到未知的讲话者中。

Jul, 2019

Auffusion: 利用扩散和大型语言模型提升文本到音频生成的能力

最新的扩散模型和大型语言模型 (LLMs) 在人工智能音频生成 (AIGC) 领域取得了重大进展。然而，现有的 Text-to-Audio (TTA) 研究经常在生成质量和文本音频对齐方面遇到困难，特别是对于复杂的文本输入。本研究通过借鉴最先进的 Text-to-Image (T2I) 扩散模型，引入了一种名为 Auffusion 的 TTA 系统，它通过有效利用其固有的生成能力和精确的跨模态对齐，改进了 TTA 任务的性能。通过客观和主观评估，我们证明了 Auffusion 在使用有限的数据和计算资源时优于先前的 TTA 方法。我们进一步进行了关于交叉模态对齐的全面消融研究和创新的交叉注意力图可视化，对 TTA 中的文本音频对齐进行了深入评估。我们的研究结果揭示了 Auffusion 生成与文本描述准确匹配的音频的卓越能力，这在几个相关任务中得到了进一步的验证，例如音频风格转换、修复和其他操作。我们的实现和演示可在此 https URL 上访问。

Jan, 2024

AADiff: 音频对齐视频生成与文本到图像扩散

本文介绍了一种新的 T2V 框架，通过引入音频信号来控制时间动态，从而使传统的 T2I 扩散生成可以与音频对齐的视频。我们提出了基于音频的区域编辑和信号平滑方法，以在视频综合的时间灵活性和一致性之间取得良好平衡，并通过实验验证了方法的有效性，并提出了实际应用。

May, 2023

音频扩散模型：关于生成 AI 中的文本转语音和语音增强的综述

本文对音频扩散模型进行了调查，针对文本转语音和语音增强这两个活跃任务，它将方法分为三类，即声学模型、波导合成和端到端框架，并通过添加或去除特定信号将各种语音增强任务进行分类，最后进行实验结果比较和讨论。

Mar, 2023

对齐，自适应和注入：音频引导的统一图像生成

本文提出了一个统一框架 ——Align, Adapt, and Inject (AAI)，用于基于声音进行图像生成、编辑和风格化。其方法将输入的声音转换成一个声音令牌，并利用现有强大的扩散式 T2I 模型，从而实现了方便而经济的声音引导的图像生成、编辑和风格化。实验表明，AAI 方法优于其他最先进的文本和声音引导方法。

Jun, 2023

音韵学反演：对语言不流利的言语进行声学到言语器官的转换：在预训练的自监督表征中是否有优势？

使用预先训练的自监督学习模型，对发音不清的言语进行声学到发音学的逆向映射，通过条件化 x-vectors 来训练 BLSTM 网络，使用不同的预先训练特征进行低资源条件下的挑战性声学到发音学逆向映射任务，在实验中观察到 DeCoAR 在细调方案中相对于 MFCC 的皮尔森相关系数分别在健康控制组和患者组上提高了约 1.81% 和约 4.56%，同时发现具有特征重构或未来时间步预测任务的 SSL 网络（如 wav2vec、APC 和 DeCoAR）预测发音不清的发声轨迹的性能表现良好。

Sep, 2023

基于空间变换网络的舌头超声无声语音界面适应性

利用深度学习算法从口腔运动数据中合成出可理解的语音，但相关模型区分度较高，对不同用户快速切换不便。该论文中利用空间变换网络（STN）模块扩展深度网络提高使用噪声下的语音接口模型的适应性，该方法有效降低了标准误差并提高了同一发言者不同录音周期的性能。

May, 2023

声道动力学超声图像序列的小型词汇数据库

本文介绍了一个包含同时记录声音与口腔运动数据的新数据库。通过超声视频记录的口腔运动数据可以对语音产生过程中的舌头上轮廓进行可视化。声学数据由定向心形麦克风采集的 30 个短句组成。此数据库包括来自哥伦比亚圣塔德尔地区的 17 名年轻志愿者（8 男性和 9 女性），他们声称没有任何语音病理。

Aug, 2023