Jun, 2023

自监督音频师生 Transformer 用于剪辑和帧任务

TL;DR本文提出了 ATST-Clip 和 ATST-Frame 两种自监督学习方法,分别负责学习音频剪辑级别和帧级别表示,并且利用知识蒸馏进一步提高了性能。其中,ATST-Frame 在音频帧事件检测任务上取得了最先进的表现。