Mar, 2024

孪生视觉变压器是可扩展的音频视觉学习器

TL;DR通过使用音频-视觉连体网络(AVSiam)进行高效可扩展的音频-视觉预训练,本研究采用了单个共享视觉变换器骨干,提高了参数效率,减少GPU内存占用,并允许扩展到更大的数据集和模型尺寸。与先前的音频-视觉方法不同,我们的方法能够稳定地处理音频、视觉和音频-视觉输入,并通过单个共享的ViT骨干在音频-视觉分类和检索方面实现具有竞争力甚至更好的结果。