ATST: 带有教师 - 学生 Transformer 的音频表示学习
本文提出了 ATST-Clip 和 ATST-Frame 两种自监督学习方法,分别负责学习音频剪辑级别和帧级别表示,并且利用知识蒸馏进一步提高了性能。其中,ATST-Frame 在音频帧事件检测任务上取得了最先进的表现。
Jun, 2023
提出了高效音频 Transformer(EAT)模型,通过自监督训练范式和新颖的话语 - 帧目标(UFO)增强声音事件建模能力,探究了掩模策略在音频自监督学习中的关键性作用,并在多种音频相关任务中实现了最先进的性能,并且相比现有的音频自监督学习模型,预训练速度提升了约 15 倍。
Jan, 2024
本文提出了一种使用未标注数据进行自监督预训练的方法,使用联合判别式和生成式掩蔽频谱补丁建模对 AST 模型进行预训练,从而显著提高音频分类性能。这是音频领域中第一个基于补丁的自监督学习框架,也是 AST 的自监督学习框架的首次探索。
Oct, 2021
使用简单且快速的音频自我监督学习方法,并进行音视频模型的有指导微调,可在减少大量文本数据依赖的同时与最先进的音视频自我监督学习方法竞争,并且更为高效和快速。
Dec, 2023
通过使用师生模型结构,利用投影头将错误的监督从教师转移到学生,以改善自我监督 - 对抗训练中存在的性能差距,并通过增加训练数据的多样性来提高模型的干净和鲁棒准确性。
Jun, 2024
Vision Transformers (ViTs) 使用自我监督学习 (SSAT) 作为辅助任务与主任务同时进行联合优化,以在有限的数据量下取得更好的性能表现,此方法能帮助 ViTs 充分利用自我监督任务和主任务的独特特点,展现出优于传统的 ViTs 预训练与后续微调的效果,并在 10 个数据集的实验证明了 SSAT 的显著性提升并减少了碳足迹,同时在视频领域的 Deepfake 检测上也验证了其普遍适用性。
Oct, 2023
本文通过对五种自我训练和任务适应预训练方法在自然语言处理任务中的对比分析,证实在半监督学习任务中,无监督任务适应预训练是一种更高效、更鲁棒的学习方法,可以更好地利用少量未标记样本甚至在领域转移的情况下展现出更好的表现。此外,以伪标签为主导可能会带来一些风险,因此建议未来半监督学习研究关注于使用无监督预训练目标。
May, 2023
利用自监督学习方法,结合教师模型的音乐理解模型能够在大规模数据上,通过留声机和 Constant-Q Transform 等多种教师模型的指导,将 BERT-style transformer encoder 更好地应用于音乐领域,提升了音乐检索等 14 项任务的表现。
May, 2023
通过使用 STaR(speech temporal relation)蒸馏方法,能够在参数较少的情况下压缩和保持语音自监督学习模型的表现,该方法适用于不同的语音自监督学习模型并具有鲁棒的性能。
Dec, 2023