Apr, 2024

Detect2Interact: 图像问答中物体关键字段的定位与交互

TL;DR本研究提出了一种名为“Detect2Interact”的高级方法,通过细粒度的物体可视关键领域检测来解决传统系统在图像内准确映射物体以生成细致和准确空间感知响应方面面临的挑战。使用段落任意模型(SAM)生成图像中物体的详细空间地图,然后使用Vision Studio提取语义对象描述,最后运用GPT-4的常识知识来弥合物体语义和其空间地图之间的差距。结果表明,Detect2Interact在大量测试案例上实现了一致的定性结果,并通过提供更合理和更精细的视觉表示优于现有的具有物体检测能力的VQA系统。