Mar, 2024

跨模态视觉推理的测试时分布学习适配器

TL;DR在本研究中,我们提出了一种名为 TT-DNA 的测试时分布学习适配器,通过在测试期间直接建模来自支持集的视觉特征的高斯分布,将其与原始的 CLIP 预测进行残差连接,得到最终预测。我们在人类对象交互的视觉推理方面的广泛实验结果表明,我们提出的 TT-DNA 方法在性能上明显优于现有的最先进方法。