Mar, 2024

Vision-RWKV:高效可扩展的基于 RWKV 类架构的视觉感知

TL;DR本研究介绍了 Vision-RWKV(VRWKV),这是一种从 NLP 领域的 RWKV 模型中修改而来并针对视觉任务进行了必要的改进的模型,它具有较低的空间聚合复杂性,能够高效处理高分辨率图像,无需窗口操作,并具有与 ViT 相媲美的分类性能,更快的速度和更低的内存使用,从而显示了 VRWKV 作为视觉感知任务的更高效替代品的潜力。