Jan, 2025
ReFocus:将视觉编辑视为结构化图像理解的思维链
ReFocus: Visual Editing as a Chain of Thought for Structured Image
Understanding
TL;DR本研究解决了当前多模态大型语言模型(LLMs)在结构化图像理解方面缺乏多跳选择性注意力的问题。我们提出的ReFocus框架,通过代码对输入图像进行视觉编辑,使LLMs能够生成“视觉思维”,显著提升了表格与图表任务的性能,平均提升分别为11.0%和6.8%。