CVPRJun, 2024

TRINS:面向能够阅读的多模态语言模型

TL;DR通过引入 TRINS 数据集和 LaRA 模型,本研究提升了多模式大语言模型在理解图片中的文本内容方面的能力。TRINS 数据集包含了 39,153 个文本丰富的图片、图片描述和 102,437 个问题,并且较之相关数据集,TRINS 的每个标注的字数显著增加。实验结果表明,LaRA 模型在 TRINS 数据集和其他经典基准上表现出色,提高了对于文本丰富图片的理解和生成任务的效果。