仅使用清晰语音的自监督语音质量估计和增强

ICLRFeb, 2024

仅使用清晰语音的自监督语音质量估计和增强

Self-Supervised Speech Quality Estimation and Enhancement Using Only Clean Speech

Szu-Wei Fu, Kuo-Hsuan Hung, Yu Tsao, Yu-Chiang Frank Wang

TL;DR提出了一种基于自编码器的自监督度量方法（VQScore），用于评估语音质量，并结合领域知识进行模型设计，同时训练自主语音增强模型以改进编码器的鲁棒性。实验结果表明，该方法和增强模型与有监督基线模型具有竞争力。

Abstract

speech quality estimation has recently undergone a paradigm shift from human-hearing expert designs to machine-learning models. However, current models rely mainly on supervised learning, which is time-consuming and expensive for label collection. To solve this problem, we propose

speech quality estimation vqscore quantization error vq-vae speech enhancement

发现论文，激发创造

用于语音情感识别的矢量量化掩码自编码器

本文介绍了使用自监督学习方法的矢量量化掩模自动编码器模型 VQ-MAE-S，该模型基于离散空间的向量量化变分自动编码器中的掩模自动编码器（MAE）对语音信号中的情感进行识别。在 VoxCeleb2 数据集的预训练和情感性语音数据的微调下，该模型在语音情感识别方面比使用原始频谱图的 MAE 和其他先进方法表现更好。

Apr, 2023

面向音视频语音情感识别的向量量化掩码自编码器

本研究提出了一种基于矢量量化和自监督学习的 MAE 模型，对语音情感识别领域中标注数据不足的问题提出了一个潜在的解决方案，实验证明该模型在基于 VoxCeleb2 数据库进行预训练并在标准情感音频视觉语音数据集上进行微调后，表现优于现有的音频视觉 SER 方法。

May, 2023

Wav2vec-C: 一种用于语音表征学习的自监督模型

Wav2vec-C 是一种结合语音编码和自监督学习的新的表示学习技术，训练模型在未标记数据和标记数据上表现都很好。

Mar, 2021

利用 VQ-VAE 从口腔和声学特征进行自监督语音单元发现

使用关节建模和深度学习研究了如何在自我监督情况下使用关节信息发现语音单元，并在实验中发现联合使用关节和语音学模态可以更准确地表示这些语音学维度。

Jun, 2022

随机投影量化器的自监督学习用于语音识别

论文介绍了一种针对语音识别的自监督学习方法，通过使用随机投影量化器生成离散标签，从而学习模型预测被屏蔽掉的语音信号，并在不更新随机初始化矩阵和码本的情况下实现。通过实验，该方法在 LibriSpeech 上取得了与自监督非流式模型相似的字错率，并且比 wav2vec 2.0 和 w2v-BERT 的流式模型具有更低的字错率和延迟，在多语种任务中也优于旧有的 wav2vec 2.0 和 w2v-BERT。

Feb, 2022

StyleSpeech：基于 VQ-VAE 的自监督风格增强与情感化有声书语音合成预训练

通过 VQ-VAE 的自监督式预训练，我们提出了一种自我监督式风格增强方法，用于表达性有声读物语音合成，实验证明我们的方法能够有效地提高有声读物合成中合成语音的自然度和表现力。

Dec, 2023

Zerospeech Challenge 2019 中的 VQVAE 无监督单元发现和多尺度 Code2Spec 反转器

我们利用 VQ-VAE 和 Code2Spec 实现了一个语音合成系统，并使用多种聚类算法和压缩方法进行了比较，结果在 ZeroSpeech Challenge 2019 中取得了显著的提高。

May, 2019

利用自监督量化神经网络实现无监督的音素和单词分割

本文提出了利用预训练自我的向量量化神经网络来实现语音分段和聚类的无监督学习方法，并在各种任务中展示出可以在低码率下得到更好的表现的切分方法。

Dec, 2020

QS-TTS：基于向量量化的自监督语音表示学习的半监督文本朗读合成

本文提出了一种新颖的半监督文本到语音（TTS）框架 QS-TTS，通过利用更多未标记的语音音频，并借助向量量化的自监督语音表示学习（VQ-S3RL）来改善 TTS 质量，从而降低对有监督数据的需求。

Aug, 2023

通过合成进行语音增强的自监督学习

本文提出了一种基于去噪声码器的语音增强方法，利用自监督学习获取语音的相关特征，并采用最佳的自监督学习配置，采用对抗训练方式进行声音去噪，最终实现了一种具备实时能力、优化了客观指标并超越了当前最先进的语音增强模型的方案。

Nov, 2022