- ICLR利用众包数据构建一种卢干达语文字转语音模型
通过使用多位相似语调的多说话者的数据进行训练,并应用数据预处理方法来改善语音质量,表明在较少数据的情况下,通过获取多位相似语调的多说话者的数据来提高 TTS 质量的有效性。
- COLING一个综合的标注病理语音的准则
我们在本研究中介绍了一种基于语音质量不同维度(包括音素、流利度和韵律)的综合性评分标准。通过利用 Prautocal 语料库,我们进行了两个实验,分别对音素和流利度进行评估。结果显示,评估这些现象的复杂性取决于检测到的特定类型的不流畅性,但 - NaturalSpeech 3:基于分解编解码和扩散模型的零样本语音合成
自然言语 3 通过因式分解扩散模型将语音波形分解为内容、韵律、音色和声学细节的子空间,并实现了高质量、相似度、韵律和可懂性的自然语音生成。
- SEF-VC:无说话人嵌入的零样本声音转换与交叉注意力
SEF-VC 是一种无需说话者嵌入的语音转换模型,通过强大的位置不可知的跨注意力机制从参考语音中学习和融入说话者音色,并以非自回归的方式从 HuBERT 语义标记中重建波形,提高了稳定性和语音转换性能。客观和主观评价证明了 SEF-VC 相 - 通过自监督离散语音单元监督进行准确对齐的高质量自动配音
该研究提出了一种基于自监督离散语音单元预测的 AVO 方法,该方法提供了更直接的对齐学习监督,改善了文本 - 视频上下文和声学特征之间的不匹配,实现了卓越的唇 - 语音同步和高品质语音合成效果。
- 基于两两比较的 MOS 预测
提出了基于配对比较的 MOS 预测框架,并利用 C-Mixup 算法增强其泛化性能,实验结果表明该框架在语音质量的排名准确性上优于当前基准,说明该框架对于提高语音质量排名的准确性具有改进作用。
- 语音表示的 MOS 预测评估
该研究评估了预测语音质量的特征提取模型,并提出了一种模型架构,用于比较有监督学习和自监督学习模型的嵌入和说话人验证模型的嵌入以预测指标 MOS;实验结果在 VCC2018 数据集和一个叫做 BRSpeechMOS 的巴西 - 葡萄牙语数据集 - 具有自适应语音质量意识的复杂神经网络在有监督对比学习下的声学回声消除
本文提出一个基于复杂神经网络的自适应语音质量模型,其中采用了特征提取、声学分离和掩码优化等不同阶段的复杂模块化神经网络,采用对比学习框架和新颖的语音质量感知损失函数来进一步提高性能,该模型在 72 小时的预训练和 72 小时的微调中训练,表 - MMFastLTS: 无自回归端到端无约束唇语到语音合成
提出了一种基于 transformer 的视觉前端的快速非自回归模型 FastLTS,可以从任意姿态和词汇的肢体语言视频中进行高质量音频合成,比当前的自回归模型在 3 秒输入序列上实现了 19.76 倍的速度提升,并获得了更好的音频质量。
- MOSRA: 联合均值意见分数和房间声学语音质量评估
本文介绍了一种非侵入式的多维度语音质量度量标准 MOSRA,可以预测房间声学参数,通过显式优化模型来学习这些参数,并同时改善 MOS 设备的泛化能力和盲预测房间声学的性能。
- 低资源表达文本朗读的分布增强
本文介绍了一种新的数据增强技术,用于文本到语音的任务,能够生成新的(文本,音频)训练样本,而无需额外的数据。该方法可增加训练期间可用的文本条件的多样性,有助于减少过拟合,特别是在低资源环境下。我们将文本和音频段进行替换以确保语法正确性,并采 - Interspeech 2021 深度降噪挑战
Deep Noise Suppression Challenge aims to improve speech quality through open-sourced datasets and evaluation frameworks - DNSMOS: 一种非侵入性的感知客观语音质量指标,用于评估降噪器
为了评估噪音抑制算法的感知质量,该研究提出了一种多阶段自学习的感知客观指标方法,能够推广到高难度测试条件,并具有与人类评分的高相关性。
- 利用跨领域语音情感识别协助,使用无标记情感数据集进行情感可控语音合成
本文提出了一种新颖的情感文本转语音合成方法,通过跨域语音情感识别模型和情感文本转语音模型进行联合训练,从而在不需要情感标签的 TTS 数据集上生成具有情感表现力的语音,并且几乎不影响其语音质量。
- SpEx: 多尺度时域说话人提取网络
通过提出 SpEx 网络并采用多尺度嵌入系数,将多说话声音信号转换成特定发言人的声音信号,该网络在信号畸变比(SDR)、比例尺不变信号畸变比(SI-SDR)和语音质量评估(PESQ)等方面均有显著改进。