批处理大小对比自我监督语音表示学习的影响

Feb, 2024

批处理大小对比自我监督语音表示学习的影响

The Effect of Batch Size on Contrastive Self-Supervised Speech Representation Learning

Nik Vaessen, David A. van Leeuwen

TL;DR研究表明，在语音领域中，基于批量大小进行的基础模型预训练可显著提高模型质量，但需注意稳定性和有效性的界限，同时需要关注批量大小和迭代次数两个因素对预训练模型质量的影响，此研究对于选取有效的训练条件以及在自监督学习中以固定数据量进行基准测试提供了指导。

Abstract

foundation models in speech are often trained using many GPUs, which implicitly leads to large effective batch sizes. In this paper we study the effect of batch size on →

foundation models batch size pre-training downstream fine-tuning self-supervised learning

发现论文，激发创造

从预文本到目的：批自适应自监督学习

本文研究自我监督对比学习中的两个关键因素：批大小和预设任务，并提出了一种自适应的批融合技术，通过降维和重构批数据，使以前孤立的个体数据能够通过嵌入层在批内进行通信，随着训练进行，自适应地增强自我监督特征编码能力。通过在 ImageNet-1k 上进行线性分类测试，实证结果表明我们的方法在公平比较下实现了最先进的性能。在 ImageNet-100 上，相对于原始性能，top1 最多提高了 1.25％。我们认为该方法可能有助于数据驱动的自我监督学习研究的进展，并为该领域带来新的视角。

Nov, 2023

上下文大小对语音预训练的影响：更大并不总是更好

调查了自监督学习中使用多少上下文能够实现高质量的预训练声学模型，发现在训练和推理过程中，40ms 的上下文能够达到最佳的音素可辨识性，而太多上下文则会显著降低表示质量，并且这种模式在监督 ASR 中也适用，当预训练表示被用作冻结输入特征时。研究结果指出了当前上游架构设计上可能需要进行的变化以更好地支持各种下游任务。

Dec, 2023

自监督预训练在语音识别中的有效性

本文比较了自监督表示学习算法 - 无量化学习和显式量化学习，发现使用显式量化的自监督学习算法以较高的准确性建立了数据词汇表，并在随后的 BERT 训练中学习了有效的表示方法，从而实现了训练量极小的语音识别系统。

Nov, 2019

大批量训练的实证模型

本文研究使用仅依赖梯度的统计量 (gradient noise scale) 来预测各种深度学习模型中最适合的 batch size 的大小，结果表明该参数可以在很多领域都适用，包括监督学习数据、强化学习领域以及生成模型训练。

Dec, 2018

BigSSL：大规模半监督学习在自动语音识别中的探索前沿

使用预先训练、自我训练和模型规模扩大的方法，利用大型、多样化的未标记数据集，我们取得了一系列使用巨型自动语音识别（ASR）模型的结果，表明它可以在极大的任务效率下使用仅有少量标记数据来实现最先进性能。在一个含有 34k 个小时标记数据的 ASR 任务中，通过微调一个 80 亿参数的预训练 Conformer 模型，我们可以实现仅有 3％的训练数据即可达到 SoTA 性能，并且使用完整的训练集可以显著提高 SoTA。我们还报告了使用大型预训练和自我训练模型对多个下游任务的通用收益，涵盖了许多语音领域的公共基准测试，并跨越了多个数据集大小的数量级，并利用预训练网络的学习表示在非 ASR 任务中取得了 SoTA 结果。

Sep, 2021

面向内存受限环境的深层对比学习批量大小缩放

该论文介绍了一种称为渐变缓存的技术，该技术使用批次内负样本来学习高质量表示，并使得梯度可以逐个子集计算，从而减少内存使用。

Jan, 2021

自监督语音表示模型的分层分析

本研究使用一套分析工具研究一款较新的波形自编码预训练语音表征模型，发现其中间表征向量所包含的声学信息和语言信息内容，并研究了自动语音识别（ASR）微调对这些观察结果产生的影响，为此提出了一个修改方案，并证明其在低资源设置中提高了单词错误率的表现。

Jul, 2021

自监督语音转文本系统中性别影响的研究

本研究使用法语作为研究语言，通过比较不同性别平衡的预训练数据集在 ASR 和 ST 中的表现来探究其影响。结果表明，性别平衡的预训练模型不一定导致最佳结果，并且使用自监督模型作为特征提取器时，ASR 和 ST 的结果会遵循更复杂的模式。

Apr, 2022

小批量大小提高低资源神经机器翻译训练

本研究证明在低资源训练中，相比于 GPU 内存允许的大批量训练，小批量训练在较短时间内可以得到更高的分数，并说这是由于在训练过程中梯度更好的正则化所导致的。

Mar, 2022

分析影响基于自监督预训练表示在语音识别中的有效性因素

本文研究了在低资源环境下建立自动语音识别（ASR）系统的方法，发现自我监督学习预训练数据的相似性和数量对系统性能有显著影响，希望为语音领域改进 SSL-based 预训练模型的泛化性能提供指导。

Mar, 2022