同步还是顺序训练？多任务自监督学习系统中语音表示如何协作

Jun, 2023

同步还是顺序训练？多任务自监督学习系统中语音表示如何协作

Simultaneous or Sequential Training? How Speech Representations Cooperate in a Multi-Task Self-Supervised Learning System

PDF

Khazar Khorrami, María Andrea Cruz Blandón, Tuomas Virtanen, Okko Räsänen

TL;DR本文研究了基于 wav2vec 2.0 的自我监督学习和基于 transformer 的视觉接地语音的联合优化作为多任务学习系统，发现先进行 wav2vec 2.0 的串行训练，再进行 VGS 可以提高音频 - 视觉检索的性能，但是并行 SSL-VGS 培训可以降低优化标准之间切换时遗忘的影响。VGS 机制学习到的音位表示可能会比通过 SSL 学习到的音位表示更好地概括跨数据集。

Abstract

speech representation learning with self-supervised algorithms has resulted in notable performance boosts in many downstream tasks. Recent work combined self-supervised learning (SSL) and visually grounded speech

speech representation learning self-supervised learning visually grounded speech processing wav2vec 2.0 transformer-based vgs

发现论文，激发创造

自监督语音表征学习：基于视觉辅助和屏蔽语言建模

本研究基于最近提出的 FaST-VGS 模型，该模型是一种基于 Transformer 的模型，学习将原始语音波形与语义相关的图像相关联，同时引入了一种新颖的扩展模型 FaST-VGS +，该模型在多任务训练中学习了掩码语言建模目标和视觉基础目标。我们的研究在 ZeroSpeech 2021 Challenge 和 SUPERB benchmark 上表现强劲，几乎在 Lexical 任务上与最佳系统相媲美。

Feb, 2022

探索基于自监督多视角对比学习在有限标注下的语音情感识别

提出了一种多视角的自监督学习预训练技术，用于改善情感识别在数据标注有限的情况下的性能，实验证明该框架能够提高业绩。

Jun, 2024

自我监督的语音和语言模型是否能从人脑中提取相似的表示？

语言和语音模型在自监督学习过程中表现出与语音和语言感知过程中的脑活动的强烈一致性。本研究通过评估两个代表性的自监督学习模型 Wav2Vec2.0 和 GPT-2 的脑预测性能来直接回答这个问题。研究结果显示，两个模型都能准确预测听觉皮层中的语音响应，并且它们的脑预测之间存在显著的相关性。值得注意的是，Wav2Vec2.0 和 GPT-2 之间共享的语音上下文信息在脑活动中解释的变异的大部分超过了静态语义和较低级的声学 - 语音学信息。这些结果强调了自监督学习模型中语音上下文表示的融合以及它们与语音感知的神经网络的一致性，为自监督学习模型和语音语言处理的神经基础提供了有价值的洞见。

Oct, 2023

自我监督表示在自动语音识别中的高效注入

我们提出了两种简单的方法，使用逐帧加法和交叉注意机制来高效地将自监督学习模型的表示纳入 ASR 架构，从而在训练期间避免使用自监督学习模型，加快了训练速度，并在 Librispeech 和 Tedlium 数据集上相较于基准模型实现了显著性能提升。

Apr, 2024

MOS 预测系统中语音表示的比较

本研究比较了自监督学习特征和谱特征的性能，并结合了两者以提高自动 MOS 的准确性。使用大规模听力测试语料库，发现 wav2vec 特征具有最佳的泛化能力，且结合特征组合表现最佳。

Jun, 2022

联合掩码 CPC 和 CTC 训练用于自动语音识别

这篇论文介绍了一种利用自监督学习方法，通过单阶段训练自动语音识别模型，利用标记数据和非标记数据来训练模型，实现了对下游任务性能的直接优化，并在 Librispeech 100-hour 数据集上实现了类似于 wav2vec ~2.0 的词错误率，最后提出解决对比任务是计算 CTC 损失的正则化的假设。

Oct, 2020

探究自监督预训练模型的集成特征在自动语音识别中的应用

本文介绍使用多个基于自监督学习的模型以及它们所提取特征的集成方法，改善语音识别任务的性能，并使用三种自监督模型 HuBERT、Wav2vec2.0 和 WaveLM 进行了实验，得到了较好的效果。

Jun, 2022

自我监督表示学习的视觉地理定位

利用自监督学习方法提升视觉地理定位技术性能和训练效率，通过统合 SimCLR、MoCov2、BYOL、SimSiam、Barlow Twins 和 VICReg 等多种自监督学习方法，研究训练策略和参数设置对视觉地理定位任务的适应性

Jul, 2023

使用自监督语音表示模型进行零样本文本转语音合成

本研究提出了一种零样本文本转语音模型，使用自监督学习获取的语音表示模型进行条件控制，并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。

Apr, 2023

基于适配器的预训练方法用于高效可扩展的自监督语音表征学习

本文介绍了一种方法，可以将预先训练的自我监督（SSL）语音表示转移到多种语言中，使用适配器模块加快新语言任务的预训练，并在不遗忘先前语言表示的情况下学习新的音频 - 语言表示，然后应用这些语言表示进行自动语音识别。

Jul, 2021