生成式口语对话语言建模

Mar, 2022

Generative Spoken Dialogue Language Modeling

Tu Anh Nguyen, Eugene Kharitonov, Jade Copet, Yossi Adi, Wei-Ning Hsu...

TL;DR本文介绍了 dGSLM，这是第一个无需文字或标签即能生成自然对话语音的 “textless” 模型，使用双塔变压器体系结构与跨注意力机制，经过 2000 小时的对话录音训练，能同时合成两个渠道的人类语音和语音附属特征，并展示其相对于基于文本的级联模型表现出更自然和流畅的交替发言。

Abstract

We introduce dgslm, the first "textless" model able to generate audio samples of naturalistic spoken dialogues. It uses recent work on unsupervised spoken unit discovery coupled with a dual-tower transformer architectur

dgslm unsupervised spoken unit discovery transformer architecture conversational audio paralinguistic signals

发现论文，激发创造

基于韵律的无文本生成式语音语言建模

本文提出了一种基于多流 Transformer 和 HiFi-GAN 的韵律感知生成口语语言模型 (pGSLM)，利用韵律为生成式预训练提供了更好的理解和生成能力。实验结果表明，该模型可以显著提高韵律和内容建模，并能够生成自然、有意义和连贯的语音。

Sep, 2021

从原始音频生成口语语言模型

本篇论文介绍了一种新的学习语言的方法，通过原始音频数据及一套度量标准来自动评估学习后的音声和语言表征，为无监督下的基于文本的生成模型提供了一种替代方法。

Feb, 2021

基于连续词大小的音频令牌的生成式口语模型

基于连续值音频嵌入的生成式口语语言模型（GSLM）通过引入词大小连续嵌入函数、对比损失和 k-NN 采样，取得了多样性和富有表现力的语言生成；该模型与离散单元 GSLM 在生成质量方面表现相当，同时内存效率提高了五倍；此外，词嵌入前后的嵌入具有音韵和语义解释性。

Oct, 2023

生成式口语语言建模对嘈杂语音的编码方式：从语音学到句法的研究

本文探讨了基于生成式口语语言建模（GSLM）的语音建模潜力，介绍了其在口语和语音处理中编解码的有效性和重构实验结果。

Jun, 2023

半监督生成建模用于可控语音合成

本文提出一种新颖的生成模型，它将最先进的神经文本到语音技术和半监督概率潜变量模型相结合。通过对某些潜变量进行部分监督，我们能够强制它们具有一致和可解释的特征，这在纯无监督的文本到语音模型中过去是不可能的。我们证明了我们的模型能够可靠地发现和控制语音的重要属性（例如情感和语速），即使只监督 1％（30 分钟）。在这样低的监督水平下，我们观察不到合成质量与最先进的基线水平相比的下降。

Oct, 2019

AudioGPT：理解与生成语音、音乐、声音和说话人头像

本文提出了一种名为 AudioGPT 的多模 AI 系统，该系统结合了基础模型来处理复杂的音频信息和解决许多理解和生成任务，以及支持口语对话的输入 / 输出接口（ASR，TTS），并通过一系列实验证明了 AudioGPT 在多轮对话中具有语音、音乐、声音和对话理解和生成任务的能力。

Apr, 2023

SLMGAN：利用语音语言模型表示的 GAN 进行无监督零样本语音转换

介绍了一种新的方法 SLMGAN，它利用 SLM（大规模预训练的语音语言模型）在生成对抗网络（GAN）框架中实现鉴别任务，特别是用于语音转换。通过在基于 mel 的鉴别器之上添加基于 SLM 的 WavLM 鉴别器，并结合新设计的 SLM 特征匹配损失函数，实现了一种无监督的零样本语音转换系统，培训过程中不需要文本标签。主观评估结果表明，SLMGAN 在自然度方面优于现有的零样本语音转换模型，并达到了相似性方面的可比较水平，突显了基于 SLM 的鉴别器在相关应用中的潜力。

Jul, 2023

分析用于口语语言模型的离散自监督语音表示

本文通过生成式语言模型的视角深入分析离散自监督语音表示（单元），并提出了对于该模型单元的实用改进方法。其分析发现语音单元与音素和音素族之间存在较高的相关性，且与说话人或性别的相关性较弱。此外，该研究发现单元提取中存在冗余性，并提出了一种新的无监督测量单元冗余的方法。最后，研究使用此度量标准开发了新的方法，用于改进单元的聚类鲁棒性并在零资源语音测量方法（例如 ABX）方面表现出显着的改进。

Jan, 2023

PSLM: 并行生成用于低延迟口语对话系统的文本和语音的 LLM

多模式语言模型通过扩展输入和输出序列，支持并行生成文本和语音，从而改善响应生成的延迟，并保持响应内容的质量。在口语问答任务上的实验证明，该方法进一步通过生成多个语音序列来减少延迟。

Jun, 2024

口语对话建模的统一语音文本预训练

提出了一个名为统一口语对话模型（USDM）的广泛的语音文本模型框架，用于生成与给定输入语音相关的有机韵律特征的连贯口语回应，而不依赖于自动语音识别（ASR）或文本到语音（TTS）解决方案。该方法利用底层大型语言模型所展示的推理链能力，采用多步骤的语音文本推理方案。经过自动和人工评估表明，该方法在生成自然流畅的口语回应方面非常有效，优于之前的和级联的基线方法。详细的比较研究显示，尽管级联方法在单独的组件上更强大，但联合的语音文本建模改善了对识别错误和语音质量的鲁棒性。

Feb, 2024