ECCVJul, 2022
音视频零样本学习的时间和跨模态注意力
Temporal and cross-modal attention for audio-visual zero-shot learning
Otniel-Bogdan Mercea, Thomas Hummel, A. Sophia Koepke, Zeynep Akata
TL;DR该研究提出了一种多模态和时间交叉注意力框架,可以利用音频和视觉信息的自然语义和时间对齐关系来实现音频 - 视觉广义零样本学习,并在多个基准测试中取得了最先进的性能。