Dec, 2023

走向更统一的上下文视觉理解

TL;DR我们提出了一种新的具有多模态输出功能的视觉理解的上下文学习框架,通过将文本和视觉提示量化和嵌入到统一的表示空间中,并采用仅具有解码器的稀疏 Transformer 架构在其上执行生成建模。实验结果表明,我们的模型在统一的多模态管线中实现了与专门模型和先前上下文学习基准模型相竞争的性能。总体而言,我们的研究在统一多模态上下文学习方面迈出了进一步的一步。