基于语音韵律从音素和音素时长中提取说话人嵌入的多说话人语音合成

Feb, 2024

基于语音韵律从音素和音素时长中提取说话人嵌入的多说话人语音合成

Speech Rhythm-Based Speaker Embeddings Extraction from Phonemes and Phoneme Duration for Multi-Speaker Speech Synthesis

Kenichi Fujita, Atsushi Ando, Yusuke Ijima

TL;DR该论文提出了一种基于语音节奏的说话者嵌入方法，用于使用目标说话者的少量话语对音素持续时间进行建模。

Abstract

This paper proposes a speech rhythm-based method for speaker embeddings to model phoneme duration using a few utterances by the target spe

speech rhythm speaker embeddings phoneme duration speech synthesis embedding space analysis

发现论文，激发创造

声音转换的节奏建模

本文介绍了一种无监督学习的方法 ——Urhythmic，此方法用于转换语音节奏，通过时间拉伸的方式实现源言语音节奏与目标言语音节奏的匹配，实验表明，Urhythmic 在语音转换中具有更好的无监督学习特性和合成质量。

Jul, 2023

使用预训练语言模型的时长感知暂停插入多说话人文本转语音

本文提出一种基于预训练语言模型的更加高效的暂停插入框架，运用双向变压器编码器表示来注入演讲者嵌入以捕捉不同演讲者的特点，并使用持续时间感知的暂停插入以获得更自然的多人演讲，测试结果表明该模型提高了合成语音的节奏性、暂停插入的精度和召回率。

Feb, 2023

节奏手势器：基于分层神经嵌入的节奏感知共同语音手势合成

我们提出了一种新颖的共语手势合成方法，在节奏和语义上实现了令人信服的结果。我们的系统包含了一个强大的基于节奏的分割流程，以确保表达和手势之间的时间上的连贯性，以及一种机制，以有效地解开语音和运动的低层和高层神经嵌入，从而实现了节奏和语义感知的手势合成。与现有的客观指标、新提出的节奏指标和人类反馈相结合的评估表明，我们的方法在超过现有技术水平上表现出色。

Oct, 2022

关于合成训练数据中音素持续时间变异性对自动语音识别的相关性

通过生成的合成数据以及时长建模来改进低资源环境或领域不匹配任务中的自动语音识别系统，并使用半监督方法在改进中合成数据的语音识别系统中取得了改进。

Oct, 2023

语音韵律的声学表征：利用递归神经网络超越度量

通过深度学习，我们在大量语音记录的数据库上训练了一个中型递归神经网络，用于语言识别任务。网络能够在 40% 的情况下正确识别出 10 秒的语音记录的语言，并且在三分之二的情况下将语言排在前三名。可视化方法显示，从网络激活中构建的表示与语音节奏的分类系统一致，尽管得到的映射比重音节和音节定时语言之间的两个分离簇更复杂。通过识别网络激活与已知语音节奏度量之间的相关性，我们进一步分析了模型。这些发现展示了深度学习工具通过识别和探索与语言相关的声学特征空间，推动我们对语音节奏的认识的潜力。

Jan, 2024

通过学习离散音素级韵律表示实现可控语音合成

本文介绍一种使用直观的离散标签实现音素级 F0 和时长控制的新方法，其使用无监督的韵律聚类过程将音素级 F0 和时长特征离散化为韵律标签的输入序列，该模型不需要参考语音就能合成语音，并具有高质量的语音输出和有效的韵律控制能力。

Nov, 2022

使用说话人嵌入作为声音压力检测的个性代理

本研究提出了一种声音压力检测的方法，通过将说话人嵌入到混合 BYOL-S 特征中，解决了个体差异性的问题，对于不同类型的压力和语言，表现出了很好的性能。

Jun, 2023

PiRhDy: 学习音符音乐的音高，节奏和动态感知嵌入

提出了一种名为 PiRhDy 的新框架，该框架将音高、节奏和动态信息无缝地整合在一起，并利用音乐的旋律和和声知识训练令牌嵌入，表现出对符号音乐的显着进步，并有潜力成为各种符号音乐应用程序的预训练工具。

Oct, 2020

零数据的文本语音可控重音

本文提出了一种可扩展的方法来产生高质量的文本转语音 (TTS) 的强调效果，并在不需要录音或注释的情况下实现，通过预测强调词的持续时间的简单但有效的方法，比光谱图修改技术更好地改善自然度 7.3％，并通过 40％正确测试强调的单词在一个女性 en-US 参考语音的句子中的识别。

Jul, 2023

口语句子的语音语言嵌入

本文提出了一种同时考虑音频和语言内容的口语句子嵌入方法，并通过音频 - 语言多任务学习问题构建了编码器 - 解码器模型，以学习长期依赖关系。实验表明，在语音识别和情感识别任务中，口语句子嵌入优于基于音素和单词级别的基准模型，且我们的嵌入模型可以更好地模拟高级声学概念并保留语言信息。因此，本文展示了一种泛化的多模态句子嵌入方法，并证明了其在口语语言理解方面的可行性。

Feb, 2019