May, 2023

LMEye:用于大型语言模型的交互式感知网络

TL;DR本文提出了一种名为 LMEye 的交互感知网络,旨在提高 Large Visual Language Model 的图像理解精度。LMEye 网络包括一个静态视觉映射网络和一些负责获取请求、分解图像特征和传输交错信息的线性层。通过在多模态问答和推理任务上进行广泛实验,我们证明 LMEye 显著提高了 LLMs 在多模态任务上的零 - shot 性能。