关于基于提示条件的语音合成的语言模型的实证研究

Mar, 2024

关于基于提示条件的语音合成的语言模型的实证研究

An Empirical Study of Speech Language Models for Prompt-Conditioned Speech Synthesis

Yifan Peng, Ilia Kulikov, Yilin Yang, Sravya Popuri, Hui Lu...

TL;DR研究报告通过对自动回归 (AR) 和非自动回归 (NAR) 语音语言模型的实证研究，为提示设计和内容语义单元提供了深入洞察。分析表明，异构和非平稳的提示对音频质量有害，与之前发现提醒较长始终会产生更好的合成的结论形成对比。此外，我们发现除了提示外，合成音频的说话者风格还受到内容的影响。我们进一步展示了语义单元携带丰富的声学信息，如音高、节奏、音量和语音强调，这些信息可能从内容泄露到合成音频中。

Abstract

speech language models (LMs) are promising for high-quality speech synthesis through in-context learning. A typical speech LM takes discrete semantic units as content and a short utterance as prompt, and synthesi

speech language models speech synthesis autoregressive non-autoregressive content semantic units

发现论文，激发创造

自回归大型语言模型中的提示

自回归大语言模型已经改变了自然语言处理领域的格局。基于预训练和提示范式的方法已经取代了常规的预训练和微调方法用于许多下游自然语言处理任务。本文讨论了已经在自回归大语言模型上使用的各种提示技术，提供了一个基于这个分类体系的简明调研，并且确定了自回归大语言模型中提示领域的一些未解决问题，可作为未来研究的方向。

Nov, 2023

SpeechGen：利用提示释放语音语言模型的生成力量

本文介绍了一种名为 SpeechGen 的框架，使用 10M 个可训练参数，探索了提示调整方法来刺激语音语言模型进行各种生成任务，为更高效和有效地生成任务提供了前景。

Jun, 2023

大型语言模型的自动提示选择

自动选择给定输入的最佳提示，克服手动设计有效提示的挑战，通过聚类训练数据、生成候选提示、生成输入 - 提示 - 输出数据集以训练评估器，并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零 - shot 问答数据集上显示出竞争性性能。

Apr, 2024

触发语言：什么语言属性使得提示成功？

在这项研究中，我们调查了不同规模、预训练和指导调优的 LLMs 在在语义上等效但语言结构不同的提示上的性能，发现 LLMs 的性能不能通过困惑度、词频、歧义或提示长度来解释，并提出了对提示研究更健壮和综合的评估标准的建议。

Nov, 2023

非自然语言处理：语言模型如何处理机器生成的提示？

语言模型提示优化研究表明，通过无明显意义或语法结构的自动生成的令牌序列，包括模型嵌入空间中的向量序列，通常胜过语义和语法良好的手工制作的提示。我们使用机器生成的提示来探究模型对非自然语言表达组成的输入的响应，并在多个语义任务中研究不同尺寸模型的行为，以及它们对连续和离散机器生成的提示和人工生成的自然语言提示的响应行为进行比较。即使产生相似的输出，机器生成的和人工提示通过网络处理途径触发不同的响应模式，包括不同的困惑度、不同的注意力和输出熵分布，以及不同的单元激活特征。我们提供了对不同提示类型激活的单元性质的初步洞察，表明只有自然语言提示才会引起真正的语言电路的激活。

Oct, 2023

基于条件扩散模型和语言模型的最小监督语音合成：语义编码的比较研究

通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS，最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech，它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram，并引入了基于变分自动编码器和韵律瓶颈的提示编码结构，以提高提示表示能力。我们还提出了 Tetra-Diff-Speech，通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时，我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明，我们的方法优于基准方法。我们提供了一个包含音频样本的网站。

Jul, 2023

AutoPrompt: 使用自动生成的提示从语言模型中引导知识

利用自动化方法生成的 AutoPrompt，我们展示了预训练语言模型在自然语言推理、情感分析和关系提取方面的潜在能力，以及自动生成的提示方法是现有探究方法的一个可行的无参数替代方法。

Oct, 2020

使用音频启动大型语言模型进行通用语音摘要

利用大型语言模型的处理和推理能力，我们引入了一个语音摘要的框架。该框架结合了经过调整的指令型语言模型和将语音转换为令牌表示的音频编码器，以使语言模型能够解释语音输入，并可根据输入模态产生一致的响应。与先前的方法不同，我们的方法能摘要任意领域的口述内容，并通过变化语言模型提示策略产生不同风格的摘要，实验证明我们的方法优于基于语音识别和语言模型的级联基线模型。

Jun, 2024

重新思考 ChatGPT 的成功：基于自回归语言模型的提示促使下的可用性和认知行为

过去十年中，许多训练和部署大型语言模型（LLMs）的策略涌现出来。本文旨在强调利用自由形式的模态和口头自由形式的语境作为用户指导通道以进行下游部署的重要性。具体而言，我们分析了两种类型的 LLMs 的模态结构以及部署过程中的六个具体任务通道。从用户的角度出发，我们引入并应用了任务可定制性、透明度和复杂性的分析度量标准来衡量它们的可用性，突显了 AR-LLMs 的提示范例的优越性。此外，我们通过采用自由形式文本和口头语境来激发 LLMs 中的多样化认知行为，模仿了人类的这些行为的语言表达方式。然后，我们详细介绍了四种常见的认知行为，以强调 AR-LLMs 的提示如何成功地模仿使用这种自由形式的模态和通道的类似人类的行为。最后，通过认知行为的概念和原则，确定了改进 LLM 在自主代理和多代理系统中部署的潜力。

May, 2024

个性化文本生成的自动提示改写

通过自动修订提示符来进行个性化文本生成的研究。

Sep, 2023