分析用于口语语言模型的离散自监督语音表示

Jan, 2023

分析用于口语语言模型的离散自监督语音表示

Analysing Discrete Self Supervised Speech Representation for Spoken Language Modeling

Amitay Sicherman, Yossi Adi

TL;DR本文通过生成式语言模型的视角深入分析离散自监督语音表示（单元），并提出了对于该模型单元的实用改进方法。其分析发现语音单元与音素和音素族之间存在较高的相关性，且与说话人或性别的相关性较弱。此外，该研究发现单元提取中存在冗余性，并提出了一种新的无监督测量单元冗余的方法。最后，研究使用此度量标准开发了新的方法，用于改进单元的聚类鲁棒性并在零资源语音测量方法（例如 ABX）方面表现出显着的改进。

Abstract

This work profoundly analyzes discrete self-supervised speech representations (units) through the eyes of generative spoken language modeling (GSLM). Following the findings of such an analysis, we propose practical improvements to the discrete unit for the GSLM. First, we start compreh

self-supervised speech representation generative spoken language modeling phonemes redundancy measurement zero-resource speech metrics

发现论文，激发创造

离散 SLU：自我監督的离散语音单元用于口语理解的大型语言模型

通过将预训练的基于文本的大型语言模型（LLM）与语音输入集成，我们提出使用离散语音单元（DSU）代替连续值语音编码器输出，通过语音适配器将其转换为 LLM 的标记嵌入空间。我们使用自监督语音编码器后跟 k-means 聚类生成 DSU。所提出的模型在来自可见 / 不可见领域的语音输入上表现出强大的性能，并具有口语问答指令遵循能力。我们还探索了来自自监督语音编码器的不同层以及 Mel 频率倒谱系数（MFCC）提取的各种类型的 DSU。我们的发现表明，在口语问答任务的指令调优中，ASR 任务和数据集并不关键。

Jun, 2024

使用离散化语音单元探索语音识别、翻译和理解：一项比较研究

通过对离散单元在端到端语音处理模型中应用的系统和全面的探索，实验证明离散单元在几乎所有设置中都可以取得相当好的结果。

Sep, 2023

自监督离散化语音表示的信息论分析

本文通过信息论的方式将每个语音学类别表示为离散单元的分布，以研究表征和离散化的语音输入与音素这样的抽象语音学类别之间的关系，并应用于两种不同的自监督模型进行研究，揭示了语音学类别的熵反映了底层语音语音变化的可变性，同时确认了这种映射的缺乏直接对应关系。

Jun, 2023

生成式口语语言建模对嘈杂语音的编码方式：从语音学到句法的研究

本文探讨了基于生成式口语语言建模（GSLM）的语音建模潜力，介绍了其在口语和语音处理中编解码的有效性和重构实验结果。

Jun, 2023

从原始音频生成口语语言模型

本篇论文介绍了一种新的学习语言的方法，通过原始音频数据及一套度量标准来自动评估学习后的音声和语言表征，为无监督下的基于文本的生成模型提供了一种替代方法。

Feb, 2021

生成式口语对话语言建模

本文介绍了 dGSLM，这是第一个无需文字或标签即能生成自然对话语音的 “textless” 模型，使用双塔变压器体系结构与跨注意力机制，经过 2000 小时的对话录音训练，能同时合成两个渠道的人类语音和语音附属特征，并展示其相对于基于文本的级联模型表现出更自然和流畅的交替发言。

Mar, 2022

通过自监督表示增强基于 LLM 的语音生成系统的稳定性

在这项研究中，我们介绍了一种新的自监督语音转换（VC）架构，它可以用来学习将瞬时特征，如内容，与静态特征（如说话者 ID 或录音条件）分开进行编码，从而创建说话者解耦的表示。结果表明，训练过以说话者解耦的自监督表示的 Large Language Models（LLMs）相比于最先进的关联表示提高了 4.7 个百分点的说话者相似度，并降低了 5.4 个百分点的词错误率（WER）。此外，它们在自然性方面比 LibriTTS 测试集中的人类录音表现更好。最后，我们表明使用明确的参考嵌入对可读性（稳定性）产生负面影响，与仅使用文本来推断风格的模型相比，WER 增加了 14 个百分点。

Feb, 2024

口语建模需要离散单元吗？

本文研究了在语音语言建模中，离散与连续表示的作用，结论表明离散化具有重要作用，并在 HuBERT 特征上训练了语言模型，在 Zero Resource Speech Challenge 2021 中实现了最新的语言词汇、句法和语义方面的最佳表现。

Mar, 2022

自监督表示在口语建模中的鲁棒性

本文探讨了基于自监督学习的语音表征模型的鲁棒性问题，提出了一种基于伪标注技术的有效学习自监督语音表征的方法，该方法可显著提高语音编码的效果，并在语音翻译任务中得到了验证。

Sep, 2022

基于连续词大小的音频令牌的生成式口语模型

基于连续值音频嵌入的生成式口语语言模型（GSLM）通过引入词大小连续嵌入函数、对比损失和 k-NN 采样，取得了多样性和富有表现力的语言生成；该模型与离散单元 GSLM 在生成质量方面表现相当，同时内存效率提高了五倍；此外，词嵌入前后的嵌入具有音韵和语义解释性。

Oct, 2023