Feb, 2024
双重焦点:在多模态大型语言模型中整合宏观和微观视角
DualFocus: Integrating Macro and Micro Perspectives in Multi-modal Large Language Models
Yuhang Cao, Pan Zhang, Xiaoyi Dong, Dahua Lin, Jiaqi Wang
TL;DR通过在多模态大型语言模型中引入双重聚焦机制,该研究提出了一种新颖的框架,能够提升视觉 - 语言任务的性能,并在综合考虑全局、细节和综合因素的任务中展现出卓越优势。利用来自宏观和微观视角的图像信息和问题响应,该模型通过识别合适的子区域进行深入分析,从而实现对局部区域的详细问题的解答能力,从而减少了大型语言模型中的幻觉现象,并提高了各种视觉 - 语言任务的性能。