Nov, 2023
PerceptionGPT: 将视觉感知有效融合到LLM中
PerceptionGPT: Effectively Fusing Visual Perception into LLM
TL;DR本文提出了一种名为PerceptionGPT的新型端到端框架,通过利用LLMs的token嵌入的表示能力,高效有效地赋予VLLMs视觉感知能力。该方法以LLMs的token嵌入作为空间信息的携带者,利用轻量级的视觉任务编码器和解码器执行视觉感知任务(如检测、分割),有效缓解了以往将视觉输出离散化为token的训练困难,并且能够在更少的可训练参数、较少的训练数据和较短的训练时间内实现更优越的性能。此外,由于推理过程中只需要一个token嵌入来解码视觉输出,结果序列长度可大幅减少。因此,该方法能够实现准确灵活的表示,无缝集成视觉感知任务,并高效处理多个视觉输出,通过广泛的实验证实了该方法的有效性和效率,结果表明,在更少的可训练参数和GPU时间的情况下取得了显著的改进,为未来赋予LLMs视觉感知能力的研究提供了便利。