计算归纳韵律结构
本文提出了一种基于 SPMH 和韵律良好性限制的语音合成模型,可有效地合成和复制日语语音中反映句法结构的语音特征,如初段降低、韵律增强等。
Mar, 2022
通过深度学习,我们在大量语音记录的数据库上训练了一个中型递归神经网络,用于语言识别任务。网络能够在 40% 的情况下正确识别出 10 秒的语音记录的语言,并且在三分之二的情况下将语言排在前三名。可视化方法显示,从网络激活中构建的表示与语音节奏的分类系统一致,尽管得到的映射比重音节和音节定时语言之间的两个分离簇更复杂。通过识别网络激活与已知语音节奏度量之间的相关性,我们进一步分析了模型。这些发现展示了深度学习工具通过识别和探索与语言相关的声学特征空间,推动我们对语音节奏的认识的潜力。
Jan, 2024
非语言信号编码通过韵律传达从交流行为到态度和情感的信息。本文提供了一个分析框架和技术概念验证,用于对韵律信号进行分类和与意义相关的关联。该分类过程通过微调预训练的语音识别模型实现,能够同时进行多类别 / 多标签检测。此外,解释韵律模式可以指导沟通和语音组织理论的发展,且可增强与语音和语言相关的技术的解释能力。
Mar, 2024
分析了不同韵律建模设置下的非自回归 TTS 模型行为,并提出了一种层次结构,其中基于单词级韵律特征来预测音素级韵律特征的方法,该方法在客观和主观评估中在音频质量和语音韵律自然性方面优于其他竞争对手。
Nov, 2020
本文提出了一种基于 TTS 系统的韵律学习机制,利用本文语言模型的语义特征改进韵律预测结果,并提出了一种名为局部注意力的自注意力结构,以消除输入文本长度局限性,实验证明,我们的模型在英语和汉语合成中产生了更加令人满意的韵律,尤其在汉语合成中,我们的模型优于基准模型,MOS 差距为 0.08,合成语音的整体自然度得到了显著提高。
Aug, 2020
语调在某种程度上与言语本身及其前后的上下文的信息重复,但仍然包含超越语言的信息。使用大型语言模型,本研究通过英文有声读物中提取的韵律特征与 LLMs 嵌入之间的预测性比较,发现多个韵律特征(包括强度、持续时间、停顿和音调曲线)与言语的信息具有高度的冗余性。然而,仅通过文本无法完全预测语调特征,进一步暗示了语调包含超越言语的信息。
Nov, 2023
本文研究了英语和西班牙语诗歌韵律的计算机自动分析,证明了基于字符的神经模型学习的表示比手工特征更为信息丰富,并且 Bi-LSTM+CRF 模型在诗歌节奏分析方面有着最高的准确率,同时说明整个词结构而不是单独音节的信息对诗歌节奏分析至关重要。
Nov, 2017
探究在语音数据中使用音韵学信息(从语音的时间和旋律中获得的信息)来实现句子和主题单元的分割,并将其与基于单词的方法相结合,取得了与基于单词的统计语言模型相当甚至更好的性能,而且需要较少的训练数据和手动标签。
Jun, 2000
本研究通过引入风格编码器,提出了一种基于数据驱动学习的语音合成模型,无需额外标注即可单独学习语音中的韵律风格,能够在一定程度上预测并控制合成语音的韵律风格。
Nov, 2017