May, 2023

Cream: 基于对比阅读模型和冻结大语言模型的视觉场景自然语言理解

TL;DR本文提出了一种新的神经架构 ——Contrastive Reading Model (Cream),以加强 LLMs 在视觉领域的语言图像理解能力,实现对文本图像内信息的更有效理解,并在文档智能助手领域达到了最先进的水平。