Apr, 2024

迷失在空间:探索视觉和语言重采样的细粒度空间理解

TL;DR通过使用诊断分类器测量重新采样器生成的视觉提示的空间信息,我们发现在对分类器进行训练时,冻结的重新采样器输出中缺乏这些信息,但当重新采样器和分类器联合训练时,我们观察到显著的性能提升。这表明重新采样器所实现的压缩原则上可以编码必要的空间信息,但在预训练阶段需要更多的面向对象的目标来促进这种能力。