Apr, 2025

视觉编年史:利用多模态LLM分析海量图像集合

TL;DR本研究针对如何分析数以千万计的图像以发现时间变化模式的问题,提出了一种利用多模态大语言模型(MLLMs)的新方法。通过对城市中频繁共现变化的捕捉,我们的方法能够回答开放性问题,而非依赖于传统的训练标签。实验结果显示,该方法显著优于基准,能够发现城市图像中的有趣趋势。