无监督语音表征池化技术基于向量量化

Apr, 2023

无监督语音表征池化技术基于向量量化

Unsupervised Speech Representation Pooling Using Vector Quantization

Jeongkyun Park, Kwanghee Choi, Hyunjun Heo, Hyung-Min Park

TL;DR本文介绍了一种新的汇集方法，通过向量量化可以将声学表示压缩为具有相似声学特性的向量，从而通过对各种下游任务进行评估，比较了我们的方法和监督汇集方法。

Abstract

With the advent of general-purpose speech representations from large-scale self-supervised models, applying a single model to multiple downstream tasks is becoming a de-facto approach. However, the pooling proble

speech representations pooling method self-supervised models unsupervised pooling methods acoustically similar representations

发现论文，激发创造

利用自监督量化神经网络实现无监督的音素和单词分割

本文提出了利用预训练自我的向量量化神经网络来实现语音分段和聚类的无监督学习方法，并在各种任务中展示出可以在低码率下得到更好的表现的切分方法。

Dec, 2020

大规模自监督语音表征学习用于自动化说话者验证

使用预训练模型学习到的语音表示作为输入特征，采用可学习权重的平均表示方法，在 Voxceleb 数据集上进行了自我监督训练，实现了自动说话人验证，在三个官方测试中分别取得了 0.537％、0.569％和 1.180％的等误差率（EER），超越了 VoxCeleb Speaker Recognition Challenge 2021 (VoxSRC2021) 中的优胜系统。

Oct, 2021

零语音 2020 挑战中基于向量量化的神经网络用于语音单元发现

本文提出两种神经模型，均使用向量量化技术将连续特征映射为有限的编码，旨在利用无标签数据学习将语音的音素内容与说话人特定细节分离的离散表述。在 Zero Speech 2020 挑战赛的英语和印度尼西亚语数据上，我们的两个模型都优于 2019 年和 2020 年挑战赛的所有提交，相对提高超过 30%。

May, 2020

使用变长软池化方法从语音表示中去除说话人信息

通过利用语音的结构性质，采用神经网络预测边界从而实现可变长度池化，以去除语音表示中的说话人信息。通过使用时间拉伸和音高变换的数据增强方法，该模型训练时被评估为包含内容信息但独立于说话人信息。

Apr, 2024

使用向量量化进行保护隐私的语音表示学习

本文提出了一种匿名表示方案，使用矢量量化来限制表示空间并通过禁止说话人身份信息实现对隐私的保护，从而在保留语音识别的基础上实现说话人匿名化。

Mar, 2022

随机投影量化器的自监督学习用于语音识别

论文介绍了一种针对语音识别的自监督学习方法，通过使用随机投影量化器生成离散标签，从而学习模型预测被屏蔽掉的语音信号，并在不更新随机初始化矩阵和码本的情况下实现。通过实验，该方法在 LibriSpeech 上取得了与自监督非流式模型相似的字错率，并且比 wav2vec 2.0 和 w2v-BERT 的流式模型具有更低的字错率和延迟，在多语种任务中也优于旧有的 wav2vec 2.0 和 w2v-BERT。

Feb, 2022

无监督神经语音表示学习概述

本文回顾了过去十年中无监督表示学习在语音处理领域的发展，归纳了自监督方法和概率隐变量模型这两类主要模型，提出了全面的分类方法，并讨论了这两类模型。

Mar, 2022

QS-TTS：基于向量量化的自监督语音表示学习的半监督文本朗读合成

本文提出了一种新颖的半监督文本到语音（TTS）框架 QS-TTS，通过利用更多未标记的语音音频，并借助向量量化的自监督语音表示学习（VQ-S3RL）来改善 TTS 质量，从而降低对有监督数据的需求。

Aug, 2023

学习不变的语音表征

本论文探讨了如何利用无监督的声学特征来增强语音识别，其中，通过学习始终对某些变换和变形不变的音频信号表示，实现了对短小的语音样本的有效处理，从而极大地提升了元音分类的准确性并降低了样本复杂性。

Jun, 2014

从预训练自监督语音模型中分析声学词嵌入

本研究研究了多种预训练模型和池化方法，用于构建自监督表征下的变长口语单词片段的声学词嵌入，发现 HuBERT 表示法在英语 AWE 上具有与当前最先进技术相媲美的效果，并且在 XiTsonga、Mandarin、French 上显著优于多语言模型 XLSR-53。

Oct, 2022