计算归纳韵律结构

MMDec, 2019

Computational Induction of Prosodic Structure

Dafydd Gibbon

TL;DR本文主要研究语音节奏（prosody）的语法问题，提出了一种基于从低频信号中推导出的语音节奏结构的归纳方法，即 Rhythm Formant Theory 和 Rhythm Formant Analysis 方法，并以朗读的汉语为例，探究了汉语和英语的差异，并得出结论：语言内部的基准化语音或语音对比对于语音的差异性过于简单，需要从物理信号中的语音节奏来研究语音的差异以找到更加准确的结果。

Abstract

The present study has two goals relating to the grammar of prosody, understood as the rhythms and melodies of speech. First, an overview is provided of the computable grammatical and phonetic approaches to prosody

prosody inductive approach speech signal analysis rhythm formant theory mandarin chinese

发现论文，激发创造

应用句法 - 韵律映射假设和韵律完整性约束到神经序列到序列语音合成

本文提出了一种基于 SPMH 和韵律良好性限制的语音合成模型，可有效地合成和复制日语语音中反映句法结构的语音特征，如初段降低、韵律增强等。

Mar, 2022

语音韵律的声学表征：利用递归神经网络超越度量

通过深度学习，我们在大量语音记录的数据库上训练了一个中型递归神经网络，用于语言识别任务。网络能够在 40% 的情况下正确识别出 10 秒的语音记录的语言，并且在三分之二的情况下将语言排在前三名。可视化方法显示，从网络激活中构建的表示与语音节奏的分类系统一致，尽管得到的映射比重音节和音节定时语言之间的两个分离簇更复杂。通过识别网络激活与已知语音节奏度量之间的相关性，我们进一步分析了模型。这些发现展示了深度学习工具通过识别和探索与语言相关的声学特征空间，推动我们对语音节奏的认识的潜力。

Jan, 2024

自发言语中的非语言信息分析新框架

非语言信号编码通过韵律传达从交流行为到态度和情感的信息。本文提供了一个分析框架和技术概念验证，用于对韵律信号进行分类和与意义相关的关联。该分类过程通过微调预训练的语音识别模型实现，能够同时进行多类别 / 多标签检测。此外，解释韵律模式可以指导沟通和语音组织理论的发展，且可增强与语音和语言相关的技术的解释能力。

Mar, 2024

基于语言驱动的动态分层变分网络合成不同语调语音

本研究提出了一种新的层次化有条件变分自编码器，用于生成声调特征，可用于合成语音信号，与现有技术相比具有更高的性能。

May, 2019

非自回归语音合成的分层韵律建模

分析了不同韵律建模设置下的非自回归 TTS 模型行为，并提出了一种层次结构，其中基于单词级韵律特征来预测音素级韵律特征的方法，该方法在客观和主观评估中在音频质量和语音韵律自然性方面优于其他竞争对手。

Nov, 2020

无文本长度限制语音合成系统的韵律学习机制

本文提出了一种基于 TTS 系统的韵律学习机制，利用本文语言模型的语义特征改进韵律预测结果，并提出了一种名为局部注意力的自注意力结构，以消除输入文本长度局限性，实验证明，我们的模型在英语和汉语合成中产生了更加令人满意的韵律，尤其在汉语合成中，我们的模型优于基准模型，MOS 差距为 0.08，合成语音的整体自然度得到了显著提高。

Aug, 2020

量化韵律与文字之间的冗余性

语调在某种程度上与言语本身及其前后的上下文的信息重复，但仍然包含超越语言的信息。使用大型语言模型，本研究通过英文有声读物中提取的韵律特征与 LLMs 嵌入之间的预测性比较，发现多个韵律特征（包括强度、持续时间、停顿和音调曲线）与言语的信息具有高度的冗余性。然而，仅通过文本无法完全预测语调特征，进一步暗示了语调包含超越言语的信息。

Nov, 2023

基于特征和神经网络扫描诗歌的比较

本文研究了英语和西班牙语诗歌韵律的计算机自动分析，证明了基于字符的神经模型学习的表示比手工特征更为信息丰富，并且 Bi-LSTM+CRF 模型在诗歌节奏分析方面有着最高的准确率，同时说明整个词结构而不是单独音节的信息对诗歌节奏分析至关重要。

Nov, 2017

基于韵律的语音自动分句和主题划分

探究在语音数据中使用音韵学信息（从语音的时间和旋律中获得的信息）来实现句子和主题单元的分割，并将其与基于单词的方法相结合，取得了与基于单词的统计语言模型相当甚至更好的性能，而且需要较少的训练数据和手动标签。

Jun, 2000

揭示表现力语音合成的潜在风格因素

本研究通过引入风格编码器，提出了一种基于数据驱动学习的语音合成模型，无需额外标注即可单独学习语音中的韵律风格，能够在一定程度上预测并控制合成语音的韵律风格。

Nov, 2017