如何从自监督模型中提取离散音频标记？

Jun, 2024

如何从自监督模型中提取离散音频标记？

How Should We Extract Discrete Audio Tokens from Self-Supervised Models?

Pooneh Mousavi, Jarod Duret, Salah Zaiem, Luca Della Libera, Artem Ploujnikov...

TL;DR这篇论文探讨了语义标记的最佳配置，提出了训练通用声码器的可扩展解决方案，并使用注意机制来提高语义标记在多种音频应用中的适应性和性能。

Abstract

Discrete audio tokens have recently gained attention for their potential to bridge the gap between audio and language processing. Ideal audio tok

audio tokens language processing quantization ssl models semantic tokens

发现论文，激发创造

DASB -- 离散音频和语音基准

通过发布离散音频和语音基准 (DASB)，我们研究了离散音频标记符在各种任务中的性能表现，并发现语义标记比压缩标记在大多数任务中表现更好，但语义标记和标准连续表示之间的性能差距仍然存在。

Jun, 2024

ContentVec: 通过分解说话人的语音表示来改进自监督语音表示

本文介绍了一种新的自监督学习方法，采用 HuBERT 框架并结合分离机制，能够在不丢失语音信息的前提下实现说话人分离，并在内容相关的下游任务中获得显著的性能提升。

Apr, 2022

利用语义信息和音频文本蒸馏模型实现高效的自监督情绪识别

本文旨在将 HuBERT 等 self-supervised learning 的模型应用在 SER 系统中，并通过分析模型的每一层得出更好的情感识别效果，提出基于 audio-textual distilled SSL 的模型实现更为高效的情感识别。

May, 2023

音频自监督学习：综述

本文综述了自监督学习在音频处理和语音处理领域中的应用，包括方法、实验和基准数据，并讨论了未来发展方向和存在的问题。

Mar, 2022

自我监督语音模型的有效蒸馏在自动语音识别中的应用探究

本文旨在研究将 HuBERT 基于自监督学习的模型进行有效的蒸馏，用于自动语音识别。我们进行了综合研究，设计了一种简单有效的算法，将参数减少 17％，将推理速度翻倍，同时又能在功能上达到满意的性能降级。

Oct, 2022

vq-wav2vec：离散语音表示的自我监督学习

该研究提出了 vq-wav2vec 算法，用于学习音频片段的离散表示，并通过自监督上下文预测任务实现。实验结果表明，BERT 预训练在 TIMIT 音素分类和 WSJ 语音识别方面实现了新的最优结果。

Oct, 2019

离散 SLU：自我監督的离散语音单元用于口语理解的大型语言模型

通过将预训练的基于文本的大型语言模型（LLM）与语音输入集成，我们提出使用离散语音单元（DSU）代替连续值语音编码器输出，通过语音适配器将其转换为 LLM 的标记嵌入空间。我们使用自监督语音编码器后跟 k-means 聚类生成 DSU。所提出的模型在来自可见 / 不可见领域的语音输入上表现出强大的性能，并具有口语问答指令遵循能力。我们还探索了来自自监督语音编码器的不同层以及 Mel 频率倒谱系数（MFCC）提取的各种类型的 DSU。我们的发现表明，在口语问答任务的指令调优中，ASR 任务和数据集并不关键。

Jun, 2024

使用自监督语音表示模型进行零样本文本转语音合成

本研究提出了一种零样本文本转语音模型，使用自监督学习获取的语音表示模型进行条件控制，并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。

Apr, 2023

口语建模需要离散单元吗？

本文研究了在语音语言建模中，离散与连续表示的作用，结论表明离散化具有重要作用，并在 HuBERT 特征上训练了语言模型，在 Zero Resource Speech Challenge 2021 中实现了最新的语言词汇、句法和语义方面的最佳表现。

Mar, 2022

使用跨模态自监督进行解缠语音嵌入

本文旨在学习说话者身份的表示，利用自我监督学习目标，在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构，从而在大规模的 “野外” 对话者数据集上进行训练，并展示了其对于标准说话者识别性能的良好效果。

Feb, 2020