BriefGPT.xyz
Ask
alpha
关键词
image reasoning
搜索结果 - 2
链式侦测:交互推理提升大型视觉语言模型
介绍了一种名为 Chain-of-Spot(CoS)的交互推理方法,通过关注图像中与问题或指令相对应的关键区域(ROI),增强特征提取,提供了多粒度图像特征,从而显著提高了大型视觉 - 语言模型(LVLMs)在理解和推理视觉内容方面的能力。
PDF
4 months ago
ACL
在图像之外进行推理的时间和场所
本研究介绍了 TARA 数据集,并探索了基于分段推理的开放式推理问题,结果发现现有模型和人类表现之间存在 70% 的差距。
PDF
2 years ago
Prev
Next