KDDSep, 2023

HAVE-Net: 基于虚拟的音频 - 视觉嵌入的少样本分类方法

TL;DR提出了一个新颖的少样本生成框架,Hallucinated Audio-Visual Embeddings-Network (HAVE-Net),用于远程感知数据中音频和视觉模态的元训练和分类,在 ADVANCE 和 AudioSetZSL 数据集上的实验结果表明,通过幻觉模态扩充策略进行少样本分类的分类器性能至少比使用真实多模态信息进行训练的分类器性能高出 0.8-2%。