CoLM-DSR：利用神经编码语言建模重建多模态发音障碍语音

Jun, 2024

CoLM-DSR：利用神经编码语言建模重建多模态发音障碍语音

CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction

Xueyuan Chen, Dongchao Yang, Dingdong Wang, Xixin Wu, Zhiyong Wu...

TL;DR通过多模型 Dysarthric speech reconstruction（DSR）模型，利用神经编解码器语言建模提高重建结果，尤其在讲话者相似性和韵律自然性方面有显著改进。

Abstract

dysarthric speech reconstruction (DSR) aims to transform dysarthric speech into normal speech. It still suffers from low speaker similarity

dysarthric speech speaker similarity prosody naturalness multi-modal dsr model neural codec language modeling

发现论文，激发创造

UNIT-DSR: 使用语音单位规范化的言语重建系统

Dysarthric speech reconstruction systems have improved through NED-based approaches, but a Unit-DSR system utilizing speech units achieves better content restoration and training efficiency, outperforming baselines with robustness against speed perturbation and noise.

Jan, 2024

通过对抗性说话者适应实现发音不清语音重建中说话者身份的保留

提出了一种基于 adversarial speaker adaptation 的多任务学习策略，主要任务是 fine-tune 演讲者编码器以有效捕捉身份相关的信息，并通过应用对抗性训练来规范重建语音的分布，以避免引入异常发言模式。结果表明，该方法可在保持语音自然度的同时实现增强的演讲者相似性。

Feb, 2022

为 ASR 数据增强精确合成口吃病患者语音

该研究提出了一种新的口吃性语音合成方法，用于自动语音识别 (ASR) 训练数据的增强，并通过主观评估证明了合成语音与真实口吃性语音在口吃感和相似性方面的相似性，特别是对于严重口吃者。

Aug, 2023

使用多说话人 TTS 合成咬字不清语音并应用于咬字不清语音识别

本文旨在通过使用多说话人端到端 TTS 合成系统为 DNN-HMM 建立训练提供合成语音，其中添加语音障碍严重性等控制参数以继续改进多语音说话人端到端 TTS 系统，实验表明：使用合成的语音，对 DNN-HMM ASR 进行训练可以将识别速率提高 12.2％，且添加严重性级别和暂停插入控制参数可以将错误率降低 6.5％。

Jan, 2022

香港中文大学口吃言语识别系统的最新进展

本文介绍了中国香港中文大学对自动语音识别技术中有关于不正常发音语音的识别问题展开的最新研究成果，利用了新型建模技术和 Bayesian model adaptation 等方法，最终取得了乌阿里语（UASpeech）失语症语音库上最低的 25.21% 字误率（WER），并在多方面相对于 2018 年的同类系统均有较大提升

Jan, 2022

基于条件扩散模型和语言模型的最小监督语音合成：语义编码的比较研究

通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS，最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech，它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram，并引入了基于变分自动编码器和韵律瓶颈的提示编码结构，以提高提示表示能力。我们还提出了 Tetra-Diff-Speech，通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时，我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明，我们的方法优于基准方法。我们提供了一个包含音频样本的网站。

Jul, 2023

使用自监督转换和多任务学习的语音无关语言障碍严重程度分类

通过使用变压器模型与多任务学习，研究论文提出了一种自动评估口吃严重程度的新框架，并比较不同方法之间的性能，以实现客观、可重复、易接触、标准化和成本效益高的自动评估方案。

Feb, 2024

跨语言自监督语音表征，提高口吃症患者的语音识别能力

使用预训练 Wav2Vec、Hubert 和 XLSR 模型的声学特征训练自动语音识别系统，对患有言语障碍的英语、西班牙语和意大利语使用者进行识别，结果表明相较于 Fbank 特征，使用 XLSR 特征可将识别错误率分别降低 6.8%、22.0% 和 7.0%。

Apr, 2022

半监督语音混合训练声学模型

本文主要介绍了对 Frisian—Dutch code-switching 语音进行自动化标注和学习的几种方法，并探索了扩充语音数据的方法以提高类似语音识别模型的效果的研究。

Oct, 2018

混合监督语音处理的预训练大型语言模型的离散多模态变换器

本文介绍了一种仅有解码器的离散多模态语言模型（DMLM），可以灵活应用于多个任务（ASR，T2S，S2TT 等）和模态（文本，语音，视觉），并探索了离散多模态模型的几个关键方面，包括损失函数、权重初始化、混合监督训练和码本。结果表明，通过组合监督和无监督训练，DMLM 在多个任务和数据集上显著受益。此外，对于 ASR，它从预训练的大型语言模型（LLM）和由 Whisper 激活导出的码本中受益。

Jun, 2024