ECCVJul, 2022

音视频零样本学习的时间和跨模态注意力

TL;DR该研究提出了一种多模态和时间交叉注意力框架,可以利用音频和视觉信息的自然语义和时间对齐关系来实现音频 - 视觉广义零样本学习,并在多个基准测试中取得了最先进的性能。