利用自动预测的韵律信息来改进指代消解
本文研究了卷积神经网络在检测和分类词汇上的韵律事件,包括音高强调和短语边界音调,作者说明加入当前词汇位置特征可以使卷积神经网络表现更好,并且将模型从单个发音者扩展到多个发音者的情况下性能依然较强。
Jun, 2017
本文中,我们提出了一个模型,该模型使用卷积神经网络对能量和音高轨迹进行耦合,并使用基于注意力机制的循环神经网络,接受文本和韵律特征,并结合转录文本和声学 - 韵律特征,以自动解析口语话语,并发现不同类型的声学 - 韵律特征都有助于解析,对比一个强文本基线,该模型取得了显著的改进。错误分析表明,声学 - 韵律特征的主要优点在于有误流畅度的句子,附加决策得到最大的改进,文本转录错误掩盖了音韵的改进。
Apr, 2017
本文提出了一种利用神经文本语音模型和预训练音频编码器从文本 - 音频数据自动提取韵律分界标签的方法,并表明这种方法与文本基线相比具有显着优势和可比性。同时,利用该方法训练的 TTS 系统略优于使用手动标注的系统。
Jun, 2022
探究在语音数据中使用音韵学信息(从语音的时间和旋律中获得的信息)来实现句子和主题单元的分割,并将其与基于单词的方法相结合,取得了与基于单词的统计语言模型相当甚至更好的性能,而且需要较少的训练数据和手动标签。
Jun, 2000
该研究探讨了将韵律和语言特征作为 MOS 预测系统的附加输入的影响,发现包含 Tacotron 编码器输出和 BERT 嵌入等高级语言输入显著提高了句子和系统层面的预测准确度。
Nov, 2022
语调在某种程度上与言语本身及其前后的上下文的信息重复,但仍然包含超越语言的信息。使用大型语言模型,本研究通过英文有声读物中提取的韵律特征与 LLMs 嵌入之间的预测性比较,发现多个韵律特征(包括强度、持续时间、停顿和音调曲线)与言语的信息具有高度的冗余性。然而,仅通过文本无法完全预测语调特征,进一步暗示了语调包含超越言语的信息。
Nov, 2023
文章提出了一种概率模型,使用基础语调和词汇线索对语音进行自动分割,通过隐马尔可夫模型和决策树结合词汇和基础语调信息。作者通过在广播新闻语料库上进行 DARPA-TDT 评估,证明了将基础语调和基于单词的知识源结合可以显著减少错误,并与基于词的分割方法相当竞争力。
May, 2001
通过使用一种基于序列对序列神经网络的方法,对音频语音特征进行条件训练,以学习一个直观且有意义的潜在韵律空间,进一步控制音调、音高、语音能量等特征参数,生成多种音色,并维持与 Tacotron 基线模型相似的评分(4.26/4.23)。
Sep, 2020
在表达性文本转语音(TTS)领域中,显式的语调边界极大地提升了合成语音的自然度和可控性。本论文提出了一个新颖的两阶段自动注释流程,通过对对比的文本 - 语音空间进行预训练来增强从联合文本 - 语音空间中提取的语调空间,并构建了一个多模态语调标注器,该模型在自动生成语调标注方面表现优异,达到了最先进的性能水平,并且在不同数据量的测试中展现出了显著的鲁棒性。
Sep, 2023
本文提出了一种基于语义和音频信息相结合的自动音频字幕生成模型,使用预训练的 ResNet38 来初始化预训练关键字编码器,并使用 LSTM 解码器和语义和音频注意力模块来进行多模态注意力解码,实验证明该模型在 Clotho 数据集上达到了最先进的性能。
Oct, 2021