- RALL-E: 强大的编解码器语言建模与思维链刺激在文本合成中的应用
RALL-E 是一种用于文本到语音合成的鲁棒语言建模方法,通过链式思维提示和自注意力机制来增强基于大型语言模型的语音合成的稳健性。
- CONCSS: 对话语音合成中基于对比的上下文理解技术
在本研究中,我们引入了一种基于对比学习的对话语音合成 (CSS) 框架 CONCSS,利用一种创新的预训练任务来进行自监督学习,提升模型对对话语音数据集的上下文理解能力,并引入了一种负样本扩充的采样策略来增强上下文向量的区别性,实验结果表明 - EMNLP量化韵律与文字之间的冗余性
语调在某种程度上与言语本身及其前后的上下文的信息重复,但仍然包含超越语言的信息。使用大型语言模型,本研究通过英文有声读物中提取的韵律特征与 LLMs 嵌入之间的预测性比较,发现多个韵律特征(包括强度、持续时间、停顿和音调曲线)与言语的信息具 - 跨语句条件化变分自编码器的语音生成
利用神经网络驱动的语音合成系统解决了表达性语音和无缝编辑的问题,通过 Cross-Utterance Conditioned Variational Autoencoder speech synthesis (CUC-VAE S2) 框架提 - 声音转换的节奏建模
本文介绍了一种无监督学习的方法 ——Urhythmic,此方法用于转换语音节奏,通过时间拉伸的方式实现源言语音节奏与目标言语音节奏的匹配,实验表明,Urhythmic 在语音转换中具有更好的无监督学习特性和合成质量。
- 使用基于 Wav2vec2 的口音识别模型探究语音和韵律信息
本研究旨在通过模型探测系统层面地分析自监督学习模型在口音识别任务的微调中音素和韵律信息变化,并比较其在 Phoneme 相关性任务和预测词级韵律任务中的表现,结果表明 AID 微调任务使得自监督模型的前两层学习到了更丰富的音素和韵律表示,并 - 非母语流畅度评分的音素和韵律感知自监督学习方法
本文提出了一种基于自监督学习的方法,利用大量未标注语音和文本提示进行预训练,然后再进行有人工评分的微调,以更好地评估语音流畅性 / 不流畅性。实验结果表明,该方法在 Pearson 相关系数方面优于基线系统,并且通过消融实验来更好地理解音素 - 使用大型语言模型控制说话风格以实现表情丰富的 TTS
本研究旨在使用生成型语言模型与 TTS 模型,提供合适的发音特征,以更好地表达不同的说话风格和对话语境,从而提升语音合成的表现。
- 运用韵律注意力和蒸馏技术提高端到端 SLU 性能
提出了基于韵律注意力的 End-to-End SLU 模型和基于韵律蒸馏的声学编码器模型,通过利用韵律信息进一步改善意图分类任务表现。
- BERT 对韵律学习了什么?
本研究采用了一系列实验,探究了 BERT 模型在不同层次上的语言表征,结果显示它主要依赖句法和语义信息来捕捉音调重音的相关信息。
- 韵律特征提高句子分割和分析
本研究旨在探究语调在非分段语音解析中的作用。在英语 Switchboard 语料库的实验中,我们发现语调对模型的解析性能和句子边界识别准确性有所帮助,但最佳解析器并不一定产生最佳句子分割性能,最佳解析来自于将句子边界与其他成分边界联合建模。
- 离散无监督单元实现的语音风格转换
该研究提出了一种基于自监督预训练模型的无配对数据标准的语音转换方法,不仅能够转换说话人的音色,而且还能够转换韵律及音调等语音韵律信息,并且在定量和定性评估中优于其他方法。
- 无监督语音重构中解离韵律表示
本文讨论并提出一种名为 Prosody2Vec 的语音重构模型,能够从无标记的情感语音语料库中学习韵律信息表示,并能在情感语音识别和情感语音转换等任务中有效地实现对韵律特征的捕捉,同时与 HuBERT 表示相结合时表现优于最先进的方法。
- 评估和减少合成语音与真实语音分布之间的距离
本研究对现代的语音合成系统中真实和合成人类语音之间的分布距离进行了研究,并通过提供话语级别信息来减少该距离,并通过评估合成数据的合适度确定改进。
- 一个自监督离散语音单元的统一单次韵律和说话人转换系统
我们提出了一种统一的系统,可以实现一次性的声音转换,包括语调、节奏和说话人属性,并利用自监督离散语音单元作为语言表示来解决语音转换过程中自然度、完整性等问题,并通过实验证明其在自然度、可理解性、说话人迁移性和韵律迁移性方面优于以往的方法。
- NoreSpeech: 基于知识蒸馏的条件扩散模型,用于噪声鲁棒性表达 TTS
本论文提出了一种噪声鲁棒的表现性文本转语音模型(NoreSpeech),它能够从嘈杂的语音参考中有效地转移说话风格到合成语音中,这是通过一个新颖的 DiffStyle 模块,一个 VQ-VAE 块和一个可控的文本对齐模块实现的。实验表明,N - 利用声学上下文调节、话语嵌入和参考编码器实现零样本基于文本的语音编辑
本文研究了基于文本声音编辑技术(Text-based voice editing,TBVE)的新方法,通过使用预训练说话人验证嵌入和联合训练参考编码器的方法,增强了语音中的说话人身份和韵律连续性。
- 一种基于虚拟现实的音视调语知觉检测方法
本文介绍了一种使用虚拟现实检测音频视觉韵律的方法,并探讨了其在考察人工耳蜗听众韵律感知方面的应用。
- 简单有效的多句 TTS 系统,具有表达和连贯的韵律
本文针对长文本合成语音的特殊困难,通过将上下文信息、强大文本特征和多人数据用于 Transformer-based FastSpeech 的简单扩展,改进了合成语音的韵律,其中 BERT 也受益于更多的训练数据。通过客观的停顿和速度指标和全 - 零样本多说话人文本语音中的准确声调复制
本论文采用 utterance 级别的规范化和发音人嵌入,在提取精细的韵律特征的同时,成功实现了音频发音人与其语调的克隆。通过客观评估和人工试验,结果表明可以在不降低质量的条件下,成功实现语音的克隆。