批处理大小对比自我监督语音表示学习的影响
本文研究自我监督对比学习中的两个关键因素:批大小和预设任务,并提出了一种自适应的批融合技术,通过降维和重构批数据,使以前孤立的个体数据能够通过嵌入层在批内进行通信,随着训练进行,自适应地增强自我监督特征编码能力。通过在 ImageNet-1k 上进行线性分类测试,实证结果表明我们的方法在公平比较下实现了最先进的性能。在 ImageNet-100 上,相对于原始性能,top1 最多提高了 1.25%。我们认为该方法可能有助于数据驱动的自我监督学习研究的进展,并为该领域带来新的视角。
Nov, 2023
调查了自监督学习中使用多少上下文能够实现高质量的预训练声学模型,发现在训练和推理过程中,40ms 的上下文能够达到最佳的音素可辨识性,而太多上下文则会显著降低表示质量,并且这种模式在监督 ASR 中也适用,当预训练表示被用作冻结输入特征时。研究结果指出了当前上游架构设计上可能需要进行的变化以更好地支持各种下游任务。
Dec, 2023
本文比较了自监督表示学习算法 - 无量化学习和显式量化学习,发现使用显式量化的自监督学习算法以较高的准确性建立了数据词汇表,并在随后的 BERT 训练中学习了有效的表示方法,从而实现了训练量极小的语音识别系统。
Nov, 2019
本文研究使用仅依赖梯度的统计量 (gradient noise scale) 来预测各种深度学习模型中最适合的 batch size 的大小,结果表明该参数可以在很多领域都适用,包括监督学习数据、强化学习领域以及生成模型训练。
Dec, 2018
使用预先训练、自我训练和模型规模扩大的方法,利用大型、多样化的未标记数据集,我们取得了一系列使用巨型自动语音识别(ASR)模型的结果,表明它可以在极大的任务效率下使用仅有少量标记数据来实现最先进性能。在一个含有 34k 个小时标记数据的 ASR 任务中,通过微调一个 80 亿参数的预训练 Conformer 模型,我们可以实现仅有 3%的训练数据即可达到 SoTA 性能,并且使用完整的训练集可以显著提高 SoTA。我们还报告了使用大型预训练和自我训练模型对多个下游任务的通用收益,涵盖了许多语音领域的公共基准测试,并跨越了多个数据集大小的数量级,并利用预训练网络的学习表示在非 ASR 任务中取得了 SoTA 结果。
Sep, 2021
本研究使用一套分析工具研究一款较新的波形自编码预训练语音表征模型,发现其中间表征向量所包含的声学信息和语言信息内容,并研究了自动语音识别(ASR)微调对这些观察结果产生的影响,为此提出了一个修改方案,并证明其在低资源设置中提高了单词错误率的表现。
Jul, 2021
本研究使用法语作为研究语言,通过比较不同性别平衡的预训练数据集在 ASR 和 ST 中的表现来探究其影响。结果表明,性别平衡的预训练模型不一定导致最佳结果,并且使用自监督模型作为特征提取器时,ASR 和 ST 的结果会遵循更复杂的模式。
Apr, 2022
本研究证明在低资源训练中,相比于 GPU 内存允许的大批量训练,小批量训练在较短时间内可以得到更高的分数,并说这是由于在训练过程中梯度更好的正则化所导致的。
Mar, 2022
本文研究了在低资源环境下建立自动语音识别(ASR)系统的方法,发现自我监督学习预训练数据的相似性和数量对系统性能有显著影响,希望为语音领域改进 SSL-based 预训练模型的泛化性能提供指导。
Mar, 2022