Jul, 2023

视觉语言模型是否能够成为良好猜测器?探索 VLM 的时间和位置推理能力

TL;DR本文通过引入 WikiTiLo 数据集,并实施两阶段的识别和推理探测任务,研究基于大规模图像 - 文本资源预训练的视觉语言模型是否能够像人类一样通过视觉线索推断图像的时间和地点,并发现 VLMs 虽然能够有效地保留视觉编码器中的相关特征,但仍然无法进行完美的推理。