- 缩小韵律差距:遗传算法结合人类有效采样情感韵律
提出一种名为 “Genetic Algorithm with People”(GAP)的方法,该方法集成了人类的决策和生产过程,以有效地采样情绪语音空间并捕捉广泛的情绪范围,支持大规模跨文化研究。
- ACL手语生成的强化建模:一种计算方法
该论文旨在通过数据驱动的方式建模强度增强,以改善手语生成中的韵律,并提出了基于手语语言学的不同策略,以表示强度修饰符,进而训练了生成器模型,最终实验结果表明采用了增强模型的视频生成质量更高。
- DelightfulTTS: 微软语音合成系统参加暴雪挑战 2021
本文描述了 Microsoft 的端到端神经文本语音合成系统:用于 Blizzard Challenge 2021 的 DelightfulTTS。该系统在两个方面实现了将文本合成成自然且高质量的语音:一方面是直接建模和生成 48 kHz - PortaSpeech: 便携式高质量生成式语音合成
提出了一种轻量级的生成式文本到语音(text-to-speech)模型 PortaSpeech,提高了合成语音的真实性和抗扰动性,并且在主观和客观的评估指标上表现最佳,其模型参数数目仅为 FastSpeech 2 的四分之一。
- ICML从原始音频学习去标识化韵律表征
提出了一种自我对比无监督信号的方法,用于学习从原始音频中去识别的 prosody 表示,可以用于语音理解的新基准测试 DAMMP,检验了该方法所学到的非 timbral prosody 子组件,已达到部分去识别的效果。
- AAAIFew Shot 自适应归一化驱动的多说话人语音合成
本文提出了一种新颖的少样本多说话者语音合成方法,它结合了自适应规范化架构和非自回归多头注意力模型。在性能测试中,该方法表现出了很高的效能。
- 利用跨句 BERT Embeddings 改进韵律建模实现端到端语音合成
提出了一种使用上下文信息和 BERT 嵌入的文本表征来在端到端的方式中进行语调生成,实验表明这种方法可以显著提高合成语音的自然度和表现力,并可以通过更改相邻的句子间接地控制语调。
- CAMP: 一种建模上下文语音调的两阶段方法
本文提出了一种基于词级表示和语义、句法信息的上下文感知韵律模型(CAMP),来解决语音合成中韵律建模的两个主要问题:慢变化信号的建模和缺乏上下文的适当韵律建模。CAMP 的准确性优于现有技术,与自然语音的差距缩小了 26%。此外,采用联合训 - 神经模型中风格在语音解析中的作用
本文通过深度学习技术重新审视了语言处理中书面文本对口语处理的作用,发现书面文本与口语数据的不匹配使得基于书面文本训练的处理器应用于口语处理时表现不佳,而基于神经网络的方法使书面文本可以用于提高口语处理性能,同时考虑语调因素可以进一步提高性能 - 利用直觉的韵律特征进行可控的神经文本转语音合成
通过使用一种基于序列对序列神经网络的方法,对音频语音特征进行条件训练,以学习一个直观且有意义的潜在韵律空间,进一步控制音调、音高、语音能量等特征参数,生成多种音色,并维持与 Tacotron 基线模型相似的评分(4.26/4.23)。
- 可解释语音合成的全层次精细韵律建模
本文提出了一种基于 Tacotron 2 的分层、细粒度和可解释的潜变量模型,实现了 prosody 的多分辨率建模,并使用有条件的 VAE 结构对所有潜在维度进行分层约束,提升了模型的可解释性和分离性能。
- 使用非平行训练数据转换频谱和声调进行情感语音转换
提出了一种使用循环生成对抗网络和小波变换将非平行语音数据转化为伪对传递来完成情感音频转换,并通过分解基频到 10 个不同时间尺度进行有效的声调转换,实验结果表明,该框架在客观和主观评估中优于基准。
- MM计算归纳韵律结构
本文主要研究语音节奏(prosody)的语法问题,提出了一种基于从低频信号中推导出的语音节奏结构的归纳方法,即 Rhythm Formant Theory 和 Rhythm Formant Analysis 方法,并以朗读的汉语为例,探究了 - 基于语言驱动的动态分层变分网络合成不同语调语音
本研究提出了一种新的层次化有条件变分自编码器,用于生成声调特征,可用于合成语音信号,与现有技术相比具有更高的性能。
- 基于 Tacotron 的端到端韵律转移实现情感化语音合成
本文提出了一个通过学习潜在的韵律嵌入空间,从包含所需韵律的参考声学信号中扩展 Tacotron 语音合成架构的方法,利用学习到的韵律嵌入空间来进行条件控制,达到了即使参考信号和合成说话人不同也能匹配参考语音韵律细节的合成语音效果,并定义了多 - ACL同情始於微笑,智慧始於語言:在人機交互中使用多模態功能
研究发现,人机面对面互动过程中的社交信号、语言特征、情感表达等特征与用户对机器人的印象有关;其中,用户面部表情的快乐程度与机器人的好感度强相关,而对话特征与机器人的智能感知有关。这些特征有望成为在线补偿信号,用于基于增强学习的自适应人机对话 - MM基于韵律的语音自动分句和主题划分
探究在语音数据中使用音韵学信息(从语音的时间和旋律中获得的信息)来实现句子和主题单元的分割,并将其与基于单词的方法相结合,取得了与基于单词的统计语言模型相当甚至更好的性能,而且需要较少的训练数据和手动标签。