TSST：文本语音风格转换的基准和评估模型

Nov, 2023

TSST：文本语音风格转换的基准和评估模型

TSST: A Benchmark and Evaluation Models for Text Speech-Style Transfer

Huashan Sun, Yixiao Wu, Yinghao Li, Jiawei Li, Yizhe Yang...

TL;DR本文介绍了 TSST 任务，它是一个新的样式转移 benchmark，强调人类导向的评估，探索和提升当前 LLMs 的性能。

Abstract

text style is highly abstract, as it encompasses various aspects of a speaker's characteristics, habits, logical thinking, and the content they express. However, previous text-style transfer tasks have primarily focused on data-driven approaches, lacking in-depth analysis and research

text style text speech-style transfer llms cognition human-oriented evaluation

发现论文，激发创造

利用大型语言模型进行文本风格转换评估

我们评估了不同的大型语言模型在文本风格转换评估中的性能并提出了输入提示的集成来增加评估的鲁棒性。

Aug, 2023

文本风格转移：评论与实验评估

本文综合评述了最近文本风格迁移的研究进展，提出了一种按类别组织 TST 模型的分类法，并提供了一份最新技术的综合摘要。我们还检验了 19 种最先进的 TST 算法并提供当前趋势的新视角。

Oct, 2020

多语种文本风格转换：印度语言的数据集与模型

本文旨在通过保留核心内容的同时改变文本的语言风格，重点研究了情感转换这一重要的文本风格转换子任务，涵盖印度语言的广泛范围，包括印地语、马加伊语、马拉雅拉姆语、马拉地语、旁遮普语、奥迪亚语、泰卢固语和乌尔都语；本文介绍了每种语言的正负样式平行句的专门数据集，评估并比较了各种基准模型在平行数据、非平行数据、跨语言学习和共享学习方法中的性能，其中包括 Llama2 和 GPT-3.5 成语语言模型（LLMs）；我们的实验突出了平行数据在文本风格转换中的重要性，并展示了掩码风格填充（MSF）方法在非平行技术中的有效性；此外，跨语言和联合多语种学习方法表现出了潜力，为选择适合特定语言和任务要求的最优模型提供了见解；据我们所知，这项工作是首次全面探索以情感转换为代表的文本风格转换任务涉及到多种语言的研究。

May, 2024

StyleTTS：一种基于样式的生成模型，用于自然且多样化的文本转语音合成

提出了 StyleTTS，一种基于风格的生成模型，用于生成具有自然韵律的多样化语音，通过自监督学习表示发声风格，无需明确标记。在内部评估中，该模型在单人和多人语音数据集中均优于最先进的模型。

May, 2022

文本样式转换评估的标准化与验证呼吁

进行元分析发现 TST 评估在人工和自动化评估方面存在实践上的不一致和显著的标准化和验证差距，提出了要求未来研究满足的需求，以弥补这些差距。

Jun, 2023

大型语言模型是否真正擅长文本风格转换？

我们分析了大型语言模型（LLMs）在文本样式转换（TST）上的性能，特别关注情感转移和文本解毒，在英语、印地语和孟加拉语三种语言中进行。我们使用零样本和少样本提示以及参数高效微调，评估了预训练 LLMs 的能力，使用自动度量、GPT-4 和人工评估。我们的评估结果显示，虽然一些受提醒的 LLMs 在英语上表现良好，但它们在其他语言（印地语、孟加拉语）上的表现平均。然而，微调与零样本和少样本提示相比显著改善了结果，使它们与之前的最先进水平相媲美。这突显出有效的 TST 需要专门的数据集和专用模型的必要性。

Jun, 2024

LMStyle 基准测试：评估聊天机器人的文本风格转移

本研究提出了 LMStyle Benchmark，这是一个适用于聊天风格文本风格转换的评估框架，可以自动化和可扩展地评估大型语言模型的风格转换质量，并引入了适应度等新颖的度量方法，从而更好地反映人类判断。

Mar, 2024

使用 Style 标签的生动文本转语音技术

本文提出了一种使用自然语言编写的样式标记的新型情感语音合成模型 StyleTagging-TTS，并使用预训练的语言模型对语言嵌入和说话风格域之间的关系进行建模，实现了对未见过的样式标记的控制。相比目前的表情 TTS 模型，该模型表现出更好的语音质量和表现力。

Apr, 2021

基于风格掩码语言模型的文本风格转换

本文提出了一种新的文本样式转换模型，名为 Style MLM，它使用原型编辑方法来构建一种样式屏蔽语言模型任务，通过使用 “可解释的注意力” 来解决样式屏蔽步骤中的位置问题。我们的模型通过与强大的 TST 基线和先进的 TST 模型竞争，展示了其在内容保留环节效果的卓越性。

Oct, 2022

情境表达式语音合成

本研究提出了一种新的任务设置，即什么样的语音是由特定环境所决定的，而非仅仅局限于情绪的预定义类别，为此，我们构建了一个综合数据集并开发了一个有效的框架来生成高质量的自然语音。

Nov, 2022