Nov, 2023

大型多模态模型的关键要素:图像分辨率和文本标签

TL;DR本研究提出了一种名为 Monkey 的多模态模型,可以提高输入分辨率,并通过多级描述生成方法,提供丰富的信息以帮助模型学习场景和物体之间的上下文关联。在广泛的测试中,Monkey 在图像字幕生成、通用视觉问答和面向文档的视觉问答等基本任务上展现了竞争性的性能。