Feb, 2024

CogCoM:通过一系列操作训练大型视觉语言模型深入细节

TL;DR通过一系列的操作,视觉 - 语言模型(VLMs)利用可靠的视觉推理生成可追溯错误原因的可解释路径,实现了最新技术水平的性能。