Apr, 2024

TextCoT: 提升多模态文本丰富图像理解的局部放大

TL;DR提出了一种名为 TextCoT 的 Chain-of-Thought 框架,用于理解富文本图像,利用 LMMs 的字幕能力来把握图像的全局背景和细节地区,从而提供准确的问题回答,方法经过了广泛实验验证了其有效性和强大的普适能力。