Jun, 2024

告诉我你在哪里:多模态 LLMs 相遇地点识别

TL;DR使用多模态大语言模型 (MLLMs) 来进行视觉地点识别,结合视觉观测和语言推理,借助视觉特征和 MLLMs 的推理能力,提供有效的地点识别解决方案。