基于韵律的无文本生成式语音语言建模

ACLSep, 2021

基于韵律的无文本生成式语音语言建模

Text-Free Prosody-Aware Generative Spoken Language Modeling

Eugene Kharitonov, Ann Lee, Adam Polyak, Yossi Adi, Jade Copet...

TL;DR本文提出了一种基于多流 Transformer 和 HiFi-GAN 的韵律感知生成口语语言模型 (pGSLM)，利用韵律为生成式预训练提供了更好的理解和生成能力。实验结果表明，该模型可以显著提高韵律和内容建模，并能够生成自然、有意义和连贯的语音。

Abstract

speech pre-training has primarily demonstrated efficacy on classification tasks, while its capability of generating novel speech, similar to how GPT-2 can generate coherent paragraphs, has barely been explored. Generative Spoken Language Modeling (GSLM) \cite{Lakhotia2021} is the only

speech pre-training generative spoken language modeling prosodic feature streams hifi-gan model coherent speech generation

发现论文，激发创造

生成式口语对话语言建模

本文介绍了 dGSLM，这是第一个无需文字或标签即能生成自然对话语音的 “textless” 模型，使用双塔变压器体系结构与跨注意力机制，经过 2000 小时的对话录音训练，能同时合成两个渠道的人类语音和语音附属特征，并展示其相对于基于文本的级联模型表现出更自然和流畅的交替发言。

Mar, 2022

生成式口语语言建模对嘈杂语音的编码方式：从语音学到句法的研究

本文探讨了基于生成式口语语言建模（GSLM）的语音建模潜力，介绍了其在口语和语音处理中编解码的有效性和重构实验结果。

Jun, 2023

基于连续词大小的音频令牌的生成式口语模型

基于连续值音频嵌入的生成式口语语言模型（GSLM）通过引入词大小连续嵌入函数、对比损失和 k-NN 采样，取得了多样性和富有表现力的语言生成；该模型与离散单元 GSLM 在生成质量方面表现相当，同时内存效率提高了五倍；此外，词嵌入前后的嵌入具有音韵和语义解释性。

Oct, 2023

PSLM: 并行生成用于低延迟口语对话系统的文本和语音的 LLM

多模式语言模型通过扩展输入和输出序列，支持并行生成文本和语音，从而改善响应生成的延迟，并保持响应内容的质量。在口语问答任务上的实验证明，该方法进一步通过生成多个语音序列来减少延迟。

Jun, 2024

具高效的分层变换器的生成式预训练语音语言模型

我们介绍了一种用于有效语音语言建模的层次变压器的生成预训练语音变压器 (GPST)，它将音频波形量化为两种不同类型的离散语音表示，并在层次变压器架构中进行集成，从而实现统一的单阶段生成过程并增强 Hi-Res 音频生成能力。通过以端到端无监督的方式在大型语音语料库上进行训练，GPST 可以生成具有多样说话人身份的句法一致的语音。给定一个简短的 3 秒提示，GPST 可以产生自然连贯的个性化语音，展示了上下文学习能力。此外，我们的方法可以通过结合多语义令牌和通用声学令牌轻松扩展到口语跨语言语音生成。实验结果表明，GPST 在词错误率、语音质量和说话人相似度方面明显优于现有语音语言模型。详情请参见 https://youngsheen.github.io/GPST/demo。

Jun, 2024

口语对话建模的统一语音文本预训练

提出了一个名为统一口语对话模型（USDM）的广泛的语音文本模型框架，用于生成与给定输入语音相关的有机韵律特征的连贯口语回应，而不依赖于自动语音识别（ASR）或文本到语音（TTS）解决方案。该方法利用底层大型语言模型所展示的推理链能力，采用多步骤的语音文本推理方案。经过自动和人工评估表明，该方法在生成自然流畅的口语回应方面非常有效，优于之前的和级联的基线方法。详细的比较研究显示，尽管级联方法在单独的组件上更强大，但联合的语音文本建模改善了对识别错误和语音质量的鲁棒性。

Feb, 2024

增强的说话对话的语音模型中的次语言学特征

大型语言模型在聊天、推理和问答等任务中表现出卓越的能力，然而标准的语言模型可能会忽略关键的语用信息，如情感、情感和口语风格，而这些信息对于实现自然、类似人类的口语对话非常重要，特别是当这些信息通过声学提示来传达时。因此，我们提出了一种增强语用的生成预训练变压器（ParalinGPT），该模型利用文本和语音模态来更好地建模口语回应的语言内容和语用属性。该模型将文本的对话背景、语音嵌入和语用属性作为输入提示，在序列化的多任务多模态框架中。实验结果表明，所提出的序列化多任务方法在当前和回应的情感分类上优于典型的序列分类技术。此外，利用对话背景和语音嵌入显著改进了回应文本的生成和情感预测。我们提出的框架在当前情感准确度、回应情感准确度和回应文本 BLEU 分数上分别取得了 6.7％、12.0％和 3.5％的相对改进。

Dec, 2023

从原始音频生成口语语言模型

本篇论文介绍了一种新的学习语言的方法，通过原始音频数据及一套度量标准来自动评估学习后的音声和语言表征，为无监督下的基于文本的生成模型提供了一种替代方法。

Feb, 2021

分析用于口语语言模型的离散自监督语音表示

本文通过生成式语言模型的视角深入分析离散自监督语音表示（单元），并提出了对于该模型单元的实用改进方法。其分析发现语音单元与音素和音素族之间存在较高的相关性，且与说话人或性别的相关性较弱。此外，该研究发现单元提取中存在冗余性，并提出了一种新的无监督测量单元冗余的方法。最后，研究使用此度量标准开发了新的方法，用于改进单元的聚类鲁棒性并在零资源语音测量方法（例如 ABX）方面表现出显着的改进。

Jan, 2023

边思考边说话：文本生成期间的实时流式语音合成

LLM2Speech 架构用于通过 LLM 生成语音，以减少显著的延迟并实现自然对话。

Sep, 2023