基于连续词大小的音频令牌的生成式口语模型

EMNLPOct, 2023

基于连续词大小的音频令牌的生成式口语模型

Generative Spoken Language Model based on continuous word-sized audio tokens

Robin Algayres, Yossi Adi, Tu Anh Nguyen, Jade Copet, Gabriel Synnaeve...

TL;DR基于连续值音频嵌入的生成式口语语言模型（GSLM）通过引入词大小连续嵌入函数、对比损失和 k-NN 采样，取得了多样性和富有表现力的语言生成；该模型与离散单元 GSLM 在生成质量方面表现相当，同时内存效率提高了五倍；此外，词嵌入前后的嵌入具有音韵和语义解释性。

Abstract

In nlp, text language models based on words or subwords are known to outperform their character-based counterparts. Yet, in the speech community, the standard input of spoken LMs are 20ms or 40ms-long discrete un

nlp language models generative spoken language model continuous-valued audio embeddings contrastive loss

发现论文，激发创造

从原始音频生成口语语言模型

本篇论文介绍了一种新的学习语言的方法，通过原始音频数据及一套度量标准来自动评估学习后的音声和语言表征，为无监督下的基于文本的生成模型提供了一种替代方法。

Feb, 2021

生成式口语对话语言建模

本文介绍了 dGSLM，这是第一个无需文字或标签即能生成自然对话语音的 “textless” 模型，使用双塔变压器体系结构与跨注意力机制，经过 2000 小时的对话录音训练，能同时合成两个渠道的人类语音和语音附属特征，并展示其相对于基于文本的级联模型表现出更自然和流畅的交替发言。

Mar, 2022

基于韵律的无文本生成式语音语言建模

本文提出了一种基于多流 Transformer 和 HiFi-GAN 的韵律感知生成口语语言模型 (pGSLM)，利用韵律为生成式预训练提供了更好的理解和生成能力。实验结果表明，该模型可以显著提高韵律和内容建模，并能够生成自然、有意义和连贯的语音。

Sep, 2021

AudioLM：一种语言建模方法用于音频生成

AudioLM 是一个高质量的音频生成框架，它通过将输入音频映射为离散令牌序列，并在该表示空间中将音频生成视为一种语言建模任务。我们提出了一种混合标记方案，以实现重建质量和长期结构两个目标，并通过大量的音频波形语料库进行了训练，使其可以生成自然，连贯的音频持续时间。不需要文件、笔录或注释，同时对未见过的讲话者也可以维持其语法和语义合理的音频持续时间。此外，我们还展示了如何通过生成连贯的钢琴音乐持续时间，超越了语音。

Sep, 2022

利用语音识别能力激发大型语言模型

通过直接添加小型音频编码器，扩展大型语言模型的能力，实现与其文本版本相同的自动语音识别系统，并在 Multilingual LibriSpeech 上的实验证明，即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时，多语种 ASR 仍然可行，从而为 LLMs 在长篇音频中进行操作开辟了可能性。

Jul, 2023

离散 SLU：自我監督的离散语音单元用于口语理解的大型语言模型

通过将预训练的基于文本的大型语言模型（LLM）与语音输入集成，我们提出使用离散语音单元（DSU）代替连续值语音编码器输出，通过语音适配器将其转换为 LLM 的标记嵌入空间。我们使用自监督语音编码器后跟 k-means 聚类生成 DSU。所提出的模型在来自可见 / 不可见领域的语音输入上表现出强大的性能，并具有口语问答指令遵循能力。我们还探索了来自自监督语音编码器的不同层以及 Mel 频率倒谱系数（MFCC）提取的各种类型的 DSU。我们的发现表明，在口语问答任务的指令调优中，ASR 任务和数据集并不关键。

Jun, 2024

生成式口语语言建模对嘈杂语音的编码方式：从语音学到句法的研究

本文探讨了基于生成式口语语言建模（GSLM）的语音建模潜力，介绍了其在口语和语音处理中编解码的有效性和重构实验结果。

Jun, 2023

分析用于口语语言模型的离散自监督语音表示

本文通过生成式语言模型的视角深入分析离散自监督语音表示（单元），并提出了对于该模型单元的实用改进方法。其分析发现语音单元与音素和音素族之间存在较高的相关性，且与说话人或性别的相关性较弱。此外，该研究发现单元提取中存在冗余性，并提出了一种新的无监督测量单元冗余的方法。最后，研究使用此度量标准开发了新的方法，用于改进单元的聚类鲁棒性并在零资源语音测量方法（例如 ABX）方面表现出显着的改进。

Jan, 2023

神经语音识别：基于声学到词汇 LSTM 模型的大词汇量语音识别

使用 CTC 损失和双向 LSTM RNN 网络，基于整词的声学单位构建连续语音识别系统，无需传统上下文依赖的子词单元和语言模型。

Oct, 2016

神经网络方法实现口语内容嵌入

通过使用循环神经网络 (RNNs) 改进了模型训练的效率和性能，我们提出了基于 RNNs 的新的区分性的声学词嵌入 (AWE) 和声学基础词嵌入 (AGWE) 的方法；我们将这些发展扩展到几种低资源语言，并且在有限标记数据的情况下展示了多语言训练的性能提升；我们将这些嵌入模型应用于基于示例的语音搜索和自动语音识别等下游任务；最后，我们展示了我们的嵌入方法与最近的自监督语音模型的比较和补充。

Aug, 2023