May, 2023

LMEye:用于大型语言模型的交互式感知网络

TL;DR本文提出了一种名为LMEye的交互感知网络,旨在提高Large Visual Language Model的图像理解精度。LMEye网络包括一个静态视觉映射网络和一些负责获取请求、分解图像特征和传输交错信息的线性层。通过在多模态问答和推理任务上进行广泛实验,我们证明LMEye显著提高了LLMs在多模态任务上的零-shot性能。