FCTalker:细粒度和粗粒度上下文建模用于生动的对话语音合成
提出了一种多尺度,多模态会话文本到语音系统(M2-CTTS),用于综合利用历史会话并增强韵律表达,通过考虑文本和声学因素的粗粒度和细粒度建模,并混合细粒度上下文信息及声学特征,实现了更好的韵律表现和自然度。
May, 2023
本文提出了一种基于对抗训练、表示瓶颈和音框级建模的无监督噪音建模方法和基于全层次变分自编码器的细粒度语调建模方法,以更好地进行语音合成并将主要因素与噪声和背景噪声分离。
Apr, 2022
本研究提出了一种新的任务设置,即什么样的语音是由特定环境所决定的,而非仅仅局限于情绪的预定义类别,为此,我们构建了一个综合数据集并开发了一个有效的框架来生成高质量的自然语音。
Nov, 2022
本篇论文主要探讨利用细粒度上下文知识选择方式,以降低基于 “专有” 短语的上下文建模产生的不确定性问题,并引入位置信息来更好地区分短语或令牌,达到在语音识别上提高识别准确率的效果。
Jan, 2022
该论文提出了一种新型的神经网络系统,用于情感文本转语音合成中的细粒度风格建模、转移和预测,该系统通过从音素水平的语音段的梅尔光谱图中提取风格嵌入来实现细粒度建模,并应用协作学习和对抗学习策略来实现内容和风格因素的有效区分。该系统不仅可以用于单个说话者情况下的不同内容的语音风格转移,还可以用于文本到语音合成,并在内容保留方面表现更好。
Nov, 2020
本文提出了一种基于 Tacotron 2 的分层、细粒度和可解释的潜变量模型,实现了 prosody 的多分辨率建模,并使用有条件的 VAE 结构对所有潜在维度进行分层约束,提升了模型的可解释性和分离性能。
Feb, 2020
本文针对长文本合成语音的特殊困难,通过将上下文信息、强大文本特征和多人数据用于 Transformer-based FastSpeech 的简单扩展,改进了合成语音的韵律,其中 BERT 也受益于更多的训练数据。通过客观的停顿和速度指标和全面的主观评估,得出了一种较强的合成语音系统,其中包括所有改进扩展,相对于同类竞品在语音自然度方面表现出显著的提升。
Jun, 2022
本论文提出了一种表达性语音合成模型,该模型利用标记级别的潜在韵律变量来捕捉和控制话语级别属性,如角色配音和说话风格,其中的潜在细节级别空间同时也捕捉更粗粒度的信息。
Nov, 2022
该论文提出了一种轻量级而有效的 TTS 系统 ContextSpeech,采用记忆缓存的复现机制和分层结构的文本语义,以及线性化的自注意力机制来增强全局文本和语音语境,并在长篇阅读中显着提高了语音质量和语调表现力。
Jul, 2023
人类协作聊天对话的自然语言分析是一个研究较少的领域,具有许多独特挑战:大量的对话行为标签,任务不明确且动态变化,主题交织,以及长程上下文相关性。本文描述了在软件开发领域中使用 Slack 聊天数据进行解释性分析工具的初步研究工作,包括生成了一种新颖的分层标记方案,基于对话行为频率设计了描述性指标,以及使用转换器 + CRF 架构来整合长程上下文的初步结果。
Dec, 2023