Jun, 2024

VisualRWKV:探索用于视觉语言模型的递归神经网络

TL;DR通过引入一种线性循环神经网络模型到多模态学习任务中,该研究提出了 VisualRWKV,它是首个应用线性 RNN 模型到视觉语言模型中的尝试,并通过数据相关的循环和提示增强建模能力,以及 2D 图像扫描机制来丰富对视觉序列的处理,实验证明 VisualRWKV 在各项基准测试中与基于 Transformer 的模型(如 LLaVA-1.5)相比具有竞争性能。