表达能力与语音合成

Apr, 2024

Expressivity and Speech Synthesis

Andreas Triantafyllopoulos, Björn W. Schuller

TL;DR将机器赋予说话的能力一直是人工智能研究的长期追求。通过对语义意义和情感表达范围进行准确合成，我们正处在实现这一目标的边缘。本文概述了让我们取得如此成果的方法学进展，并勾勒了达到人工表达能力的下一个层次的不断努力。同时，我们还探讨了快速发展的表达性语音合成（ESS）技术的社会影响以及降低风险和确保 ESS 能力与道德规范对齐的方法。

Abstract

Imbuing machines with the ability to talk has been a longtime pursuit of artificial intelligence (AI) research. From the very beginning, the community has not only aimed to synthesise high-fidelity speech that accurately conveys the semantic meaning of an utterance, but also to colour it with inflections that cover the same range of →

expressive speech synthesis artificial expressivity methodological advances affective expressions ethical norms

发现论文，激发创造

混合情感语音合成

本研究提出一种新的情感文本转语音框架，通过量化不同情绪之间的差异，训练模型并控制模型在运行时生成所需的情感混合，实现了语音情感合成研究中的情感混合模拟。

Aug, 2022

透过零训练样本的情感和言语阻碍生成实现人性化的语音合成

现代对话系统在情感深度和人类交互特征方面存在重大局限。为弥补这一差距，我们设计了一种创新的语音合成流程，通过零 - shot 设置下的先进语言模型将人类情感和不流畅的特质引入生成的文本，从而更好地模拟人类语音模式，提供更直观自然的用户交互，产生几乎无法与真实人类交流区分的合成语音，使每次交互更具个人化和真实性。

Mar, 2024

提升无文字语音翻译中的表达能力转移

通过离散语音单元级别的多语情感嵌入，以及有效地预测目标语言中的语音单元的音高和持续时间，本研究展示了一种能够有效捕捉跨不同语言的表达能力的新方法，通过客观和主观实验，结果显示本方法在提高传达情感和文化细微差别方面优于当前先进系统的表达能力转移。

Oct, 2023

基于发音器官学的可控表情语音合成

通过声音的产生水平，我们以声韵学为基础，定义了一个由声门化、紧张度和共振三个维度构成的框架（GTR），来研究表达性语音合成，记录了一个包含 20 个中文句子以及 125 个不同 GTR 组合的高质量语音数据集（GTR-Voice），并通过自动分类和听力测试验证了该框架和 GTR 注释的精确可控性，并在两个经过微调的表达性 TTS 模型上展示了 GTR 维度上的精确控制能力，同时也开源了数据集和 TTS 模型。

Jun, 2024

情境表达式语音合成

本研究提出了一种新的任务设置，即什么样的语音是由特定环境所决定的，而非仅仅局限于情绪的预定义类别，为此，我们构建了一个综合数据集并开发了一个有效的框架来生成高质量的自然语音。

Nov, 2022

机器人语音合成：交互、场景和伦理的视角

本文从非语言和互动语音信号的综合、机器人语音综合的情景分类和机器人语音情感和认同的设计三个方面来讨论优化人机交互的通讯机器人设计。

Mar, 2022

神经语音合成调查

本文全面调研了神经网络 TTS 在包括文本分析、声学模型、声码器等方面的研究进展，进一步总结了相关资源（数据集、开源实现），并提出了未来的研究方向。

Jun, 2021

具有语言信息的强调表达 TTS 技术

提出了一种基于 EE-TTS 的强调语音合成模型，该模型利用多层语言信息进行韵律信息的预测，并同时进行语音合成和语言信息输出，并经过实验证明其优于基线模型，并且在不同数据集上也具有较强的泛化能力。

May, 2023

教授计算机自然语言

本文探讨了计算机与程序员所涉及的类似语言应用程序所涉及的模式，并旨在调整我们的问题以更好地说明上下文、自我意识和具体化。

Apr, 2016

EXPRESSO：离散表达性语音重新合成的基准和分析

我们介绍了 Expresso，这是一个高质量的表达性语音数据集，用于无文字语音合成，其中包括使用 26 种自发表达的风格渲染的朗读语音和即兴对话。我们通过一个表达性再合成基准来说明该数据集的挑战和潜力，其中的任务是在保持内容和风格的同时，使用低比特率单位对输入进行编码并在目标语音中重新合成。我们使用自动度量标准评估了不同自我监督离散编码器的合成质量，并探讨了质量、比特率和对说话人和风格的不变性之间的权衡。所有数据集、评估指标和基线模型均为开源。

Aug, 2023