May, 2024

DMT-JEPA:用于联合嵌入预测结构的判别性掩码目标

TL;DR我们介绍了一种新的基于 JEPA 的 masked modeling 目标 DMT-JEPA,通过计算特征相似性和使用轻量级交叉注意力头,将语义相似的邻域图像作为目标来生成具有辨别力的潜在目标,从而弥补了 JEPA 在理解局部语义方面的不足。