CoLM-DSR:利用神经编码语言建模重建多模态发音障碍语音
Dysarthric speech reconstruction systems have improved through NED-based approaches, but a Unit-DSR system utilizing speech units achieves better content restoration and training efficiency, outperforming baselines with robustness against speed perturbation and noise.
Jan, 2024
提出了一种基于 adversarial speaker adaptation 的多任务学习策略,主要任务是 fine-tune 演讲者编码器以有效捕捉身份相关的信息,并通过应用对抗性训练来规范重建语音的分布,以避免引入异常发言模式。结果表明,该方法可在保持语音自然度的同时实现增强的演讲者相似性。
Feb, 2022
该研究提出了一种新的口吃性语音合成方法,用于自动语音识别 (ASR) 训练数据的增强,并通过主观评估证明了合成语音与真实口吃性语音在口吃感和相似性方面的相似性,特别是对于严重口吃者。
Aug, 2023
本文旨在通过使用多说话人端到端 TTS 合成系统为 DNN-HMM 建立训练提供合成语音,其中添加语音障碍严重性等控制参数以继续改进多语音说话人端到端 TTS 系统,实验表明:使用合成的语音,对 DNN-HMM ASR 进行训练可以将识别速率提高 12.2%,且添加严重性级别和暂停插入控制参数可以将错误率降低 6.5%。
Jan, 2022
本文介绍了中国香港中文大学对自动语音识别技术中有关于不正常发音语音的识别问题展开的最新研究成果,利用了新型建模技术和 Bayesian model adaptation 等方法,最终取得了乌阿里语(UASpeech)失语症语音库上最低的 25.21% 字误率(WER),并在多方面相对于 2018 年的同类系统均有较大提升
Jan, 2022
通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS,最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech,它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram,并引入了基于变分自动编码器和韵律瓶颈的提示编码结构,以提高提示表示能力。我们还提出了 Tetra-Diff-Speech,通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时,我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明,我们的方法优于基准方法。我们提供了一个包含音频样本的网站。
Jul, 2023
通过使用变压器模型与多任务学习,研究论文提出了一种自动评估口吃严重程度的新框架,并比较不同方法之间的性能,以实现客观、可重复、易接触、标准化和成本效益高的自动评估方案。
Feb, 2024
使用预训练 Wav2Vec、Hubert 和 XLSR 模型的声学特征训练自动语音识别系统,对患有言语障碍的英语、西班牙语和意大利语使用者进行识别,结果表明相较于 Fbank 特征,使用 XLSR 特征可将识别错误率分别降低 6.8%、22.0% 和 7.0%。
Apr, 2022
本文主要介绍了对 Frisian—Dutch code-switching 语音进行自动化标注和学习的几种方法,并探索了扩充语音数据的方法以提高类似语音识别模型的效果的研究。
Oct, 2018
本文介绍了一种仅有解码器的离散多模态语言模型(DMLM),可以灵活应用于多个任务(ASR,T2S,S2TT 等)和模态(文本,语音,视觉),并探索了离散多模态模型的几个关键方面,包括损失函数、权重初始化、混合监督训练和码本。结果表明,通过组合监督和无监督训练,DMLM 在多个任务和数据集上显著受益。此外,对于 ASR,它从预训练的大型语言模型(LLM)和由 Whisper 激活导出的码本中受益。
Jun, 2024