ATST: 带有教师 - 学生 Transformer 的音频表示学习

Apr, 2022

ATST: 带有教师 - 学生 Transformer 的音频表示学习

ATST: Audio Representation Learning with Teacher-Student Transformer

Xian Li, Xiaofei Li

TL;DR本文提出了一个新的基于 Transformer 编码器的自监督学习模型 ——ATST，该模型可解决分段级别的音频自监督学习问题。在新的正对配对策略的支持下，ATST 模型在多项下游任务中实现了最新的最佳表现。

Abstract

self-supervised learning (ssl) learns knowledge from a large amount of unlabeled data, and then transfers the knowledge to a specific problem with a limited number of labeled data. →

self-supervised learning ssl audio transformer-based teacher-student ssl state-of-the-art results

发现论文，激发创造

自监督音频师生 Transformer 用于剪辑和帧任务

本文提出了 ATST-Clip 和 ATST-Frame 两种自监督学习方法，分别负责学习音频剪辑级别和帧级别表示，并且利用知识蒸馏进一步提高了性能。其中，ATST-Frame 在音频帧事件检测任务上取得了最先进的表现。

Jun, 2023

EAT：高效音频 Transformer 的自监督预训练

提出了高效音频 Transformer（EAT）模型，通过自监督训练范式和新颖的话语 - 帧目标（UFO）增强声音事件建模能力，探究了掩模策略在音频自监督学习中的关键性作用，并在多种音频相关任务中实现了最先进的性能，并且相比现有的音频自监督学习模型，预训练速度提升了约 15 倍。

Jan, 2024

SSAST: 自监督音频频谱变换器

本文提出了一种使用未标注数据进行自监督预训练的方法，使用联合判别式和生成式掩蔽频谱补丁建模对 AST 模型进行预训练，从而显著提高音频分类性能。这是音频领域中第一个基于补丁的自监督学习框架，也是 AST 的自监督学习框架的首次探索。

Oct, 2021

音频自监督学习：综述

本文综述了自监督学习在音频处理和语音处理领域中的应用，包括方法、实验和基准数据，并讨论了未来发展方向和存在的问题。

Mar, 2022

音频 - 视觉微调的音频识别模型

使用简单且快速的音频自我监督学习方法，并进行音视频模型的有指导微调，可在减少大量文本数据依赖的同时与最先进的音视频自我监督学习方法竞争，并且更为高效和快速。

Dec, 2023

ProFeAT：自监督学习鲁棒表示的投射特征对抗训练

通过使用师生模型结构，利用投影头将错误的监督从教师转移到学生，以改善自我监督 - 对抗训练中存在的性能差距，并通过增加训练数据的多样性来提高模型的干净和鲁棒准确性。

Jun, 2024

有限数据，无限潜力：ViT 与遮蔽自编码器增强的研究

Vision Transformers (ViTs) 使用自我监督学习 (SSAT) 作为辅助任务与主任务同时进行联合优化，以在有限的数据量下取得更好的性能表现，此方法能帮助 ViTs 充分利用自我监督任务和主任务的独特特点，展现出优于传统的 ViTs 预训练与后续微调的效果，并在 10 个数据集的实验证明了 SSAT 的显著性提升并减少了碳足迹，同时在视频领域的 Deepfake 检测上也验证了其普遍适用性。

Oct, 2023

利用语言模型重新思考半监督学习

本文通过对五种自我训练和任务适应预训练方法在自然语言处理任务中的对比分析，证实在半监督学习任务中，无监督任务适应预训练是一种更高效、更鲁棒的学习方法，可以更好地利用少量未标记样本甚至在领域转移的情况下展现出更好的表现。此外，以伪标签为主导可能会带来一些风险，因此建议未来半监督学习研究关注于使用无监督预训练目标。

May, 2023

MERT：音乐声学理解模型及大规模自监督训练

利用自监督学习方法，结合教师模型的音乐理解模型能够在大规模数据上，通过留声机和 Constant-Q Transform 等多种教师模型的指导，将 BERT-style transformer encoder 更好地应用于音乐领域，提升了音乐检索等 14 项任务的表现。

May, 2023

STaR: 为轻量级语音自监督学习模型提取语音时序相关性

通过使用 STaR（speech temporal relation）蒸馏方法，能够在参数较少的情况下压缩和保持语音自监督学习模型的表现，该方法适用于不同的语音自监督学习模型并具有鲁棒的性能。

Dec, 2023