利用自监督帧嵌入实现高效语音质量评估

Nov, 2022

利用自监督帧嵌入实现高效语音质量评估

Efficient Speech Quality Assessment using Self-supervised Framewise Embeddings

Karl El Hajal, Zihan Wu, Neil Scheidwasser-Clow, Gasser Elbanna, Milos Cernak

TL;DR本文提出了一种以帧特征为基础，采用时间依赖建模的自动语音质量评估系统，相较之下与其它表现最佳的模型相比，该系统参数更少（约 40-60 倍）、计算量更少（约 100 倍）、内存消耗更少（约 10-15 倍）且延迟更低（约 30 倍），并且发现帧嵌入优于语句级嵌入，而多任务训练时进行声学条件建模不会降低语音质量预测能力，同时提供更好的解释。

Abstract

automatic speech quality assessment is essential for audio researchers, developers, speech and language pathologists, and system quality engineers. The current state-of-the-art systems are based on framewise speech features (hand-engineered or learnable) combined with →

automatic speech quality assessment time dependency modeling conferencingspeech 2022 challenge framewise embeddings multi-task training

发现论文，激发创造

利用自监督语音表示进行 L2 熟练度评估

本文介绍一种基于自监督语音表示的自动口语评估系统，并将其与传统的基于语音识别和基于文本的评估系统进行比较。研究结果表明，该系统可以在适当情况下与其他系统媲美甚至取得更好的表现。

Nov, 2022

有监督的声学嵌入及其在不同语言之间的可转移性

本文研究了使用自监督预训练技术来提高语音识别的准确性，发现在监督学习框架中，利用不同的预训练自监督特征作为 Acoustic Word Embeddings 的输入是最有效的方法，并且这种方法可实现跨语言迁移。

Jan, 2023

ComParE 2022 口吃子挑战赛的端对端和自监督学习

本文提出了基于自监督学习的语音嵌入系统，通过对预先训练的 Wav2Vec2.0 模型进行嵌入提取，结合 Mel 频率倒谱系数 (MFCC) 特征进行评估，在计算语言学竞赛中达到了较好的结果，相对于 DeepSpectrum 挑战基线提高了 31.32% (验证集) 和 1.49% (测试集)。同时，通过对 Wav2Vec2.0 的各层嵌入进行求和，进一步提高了系统性能。

Jul, 2022

大规模自监督学习的语音分离

本文探讨了如何扩大自监督学习（SSL）的规模，以更好地应用于语音分离问题。通过使用大量的预训练数据进行 fine-tuning，提出的模型在节省了 38% 计算成本的同时，相比于监督学习方法和基于 WavLM 的模型，在一些测试数据集上的单词错误率均有显著的改善。

Nov, 2022

使用自监督特征进行语音情感识别

本文介绍了一种基于自上而下加自下而上架构范式的端到端情感识别系统，构建了基于自我监督特征的情感识别实验，并研究了自我监督特征模型的微调、特征的聚合和后端分类网络之间的相互作用等领域。该单模只有语音的系统不仅取得了 SOTA 结果，而且也揭示了强大且经过精细调整的自我监督声学特征的可能性，使其达到类似于同时使用语音和文本模态的 SOTA 多模态系统所达到的结果。

Feb, 2022

鲁棒的声音质量特征嵌入用于失音声音检测

本研究提出了一种深度学习框架来生成对声音质量敏感且在不同语料库中具有鲁棒性的声学特征嵌入，同时将对比性损失与分类损失相结合进行训练，并使用数据膨胀方法提高模型的鲁棒性，实证结果表明，该方法不仅在语料库内和语料库间的分类准确度上表现出色，而且生成的嵌入对声音质量敏感且跨不同语料库具有鲁棒性。同时，与三种基准方法比较的结果表明，所提出的模型在干净以及损坏的语料库内和语料库间表现出一致的优异性能。

Nov, 2022

仅使用清晰语音的自监督语音质量估计和增强

提出了一种基于自编码器的自监督度量方法（VQScore），用于评估语音质量，并结合领域知识进行模型设计，同时训练自主语音增强模型以改进编码器的鲁棒性。实验结果表明，该方法和增强模型与有监督基线模型具有竞争力。

Feb, 2024

利用自监督预训练的声学和语言特征进行连续语音情感识别

本文研究音频和文本的预训练提取特征方法，使用 wav2vec 和 camemBERT 模型进行连续情感识别任务，同时采用 SEWA 数据集，证明 wav2vec 和 BERT 预训练特征的联合使用在处理连续 SER 任务中表现非常合适。通过实验证明，新方法的 CCC 值达到 0.825，而传统的 MFCC 和 word2vec 仅为 0.592。

Nov, 2020

面向效率的自监督语音表示学习方法

自我监督学习在计算机视觉、自然语言处理、生物学和语音等多个领域取得突破，然而现有方法的计算成本较高，限制了模型的部署、训练数据集的规模以及拥有大型自我监督模型的研究机构的数量。因此，需要进一步研究以解决自我监督表示学习中高计算成本的问题。

Dec, 2023

自监督预训练在语音识别中的有效性

本文比较了自监督表示学习算法 - 无量化学习和显式量化学习，发现使用显式量化的自监督学习算法以较高的准确性建立了数据词汇表，并在随后的 BERT 训练中学习了有效的表示方法，从而实现了训练量极小的语音识别系统。

Nov, 2019