Vision-RWKV：高效可扩展的基于 RWKV 类架构的视觉感知

Mar, 2024

Vision-RWKV：高效可扩展的基于 RWKV 类架构的视觉感知

Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures

Yuchen Duan, Weiyun Wang, Zhe Chen, Xizhou Zhu, Lewei Lu...

TL;DR本研究介绍了 Vision-RWKV（VRWKV），这是一种从 NLP 领域的 RWKV 模型中修改而来并针对视觉任务进行了必要的改进的模型，它具有较低的空间聚合复杂性，能够高效处理高分辨率图像，无需窗口操作，并具有与 ViT 相媲美的分类性能，更快的速度和更低的内存使用，从而显示了 VRWKV 作为视觉感知任务的更高效替代品的潜力。

Abstract

transformers have revolutionized computer vision and natural language processing, but their high computational complexity limits their application in high-resolution image processing and →

transformers vision-rwkv high-resolution image processing long-context analysis efficient visual perception

发现论文，激发创造

Diffusion-RWKV：为扩展扩散模型的 RWKV-Like 架构

该论文介绍了一种在图像生成任务中应用于扩散模型的一系列基于 NLP 中 RWKV 模型的架构，通过针对性的修改，使其能在高分辨率图像生成任务中高效处理，减少计算复杂度。在条件和无条件图像生成任务上的实验结果表明，Diffusion-RWKV 在 FID 和 IS 指标上达到或超过现有的 CNN 或基于 Transformer 的扩散模型的性能，同时显著减少总计算 FLOP 使用。

Apr, 2024

RRWKV: 捕捉 RWKV 中的长程依赖

本文提出了回顾性接收加权键值（RRWKV）架构，通过将回顾能力融入到 RWKV 中，有效地吸收信息，同时保持存储和计算效率，从而解决了 RWKV 架构的局限性，能够更好地捕捉长程依赖。

Jun, 2023

RWKV：为 Transformer 时代重新设计 RNN

本文提出了一种名为 Receptance Weighted Key Value（RWKV）的新型模型体系结构，它将 Transformer 的并行训练与 RNN 的高效推理相结合，并利用了线性注意机制，使模型既可以被阐释为 Transformer，也可以被阐释为 RNN，从而在训练期间并行计算，并在推理期间保持计算和记忆的复杂度恒定，从而成为第一个可扩展到数十亿参数的非 Transformer 架构，实验表明，RWKV 的表现与同样大小的 Transformer 相当，在序列处理任务中为权衡计算效率和模型性能迈出了重要的一步。

May, 2023

ViR: 视觉记忆网络

基于自注意力机制的视觉转换器（ViTs）因其对长距离空间依赖关系和大规模训练的出色能力而受到了广泛的关注，然而，其二次复杂度限制了其在许多需要快速推理的场景中的应用。受到自然语言处理中并行化模型的启发，我们提出了一种新的计算机视觉模型，命名为视觉保留网络（ViR），具有双并行和循环结构，以在快速推理和并行训练之间达到最佳平衡，并在需要更高分辨率图像的任务中具有可扩展性。ViR 是第一个尝试在通用视觉骨干网络中实现双并行和循环等效性的方法，我们通过大量实验证实了 ViR 的有效性，并提供了代码和预训练模型的公开获取。

Oct, 2023

高效视觉变换器的调研：算法、技术和性能评测

这篇文章首先数学上定义了使 Vision Transformer 高效的策略，描述并讨论了最先进的方法学，并分析了它们在不同应用场景下的性能。

Sep, 2023

选择哪种 Transformer：视觉 Transformer 效率的比较分析

对视觉 Transformer 及相关架构的效率进行了综合分析，揭示了一系列有趣的见解，例如发现 ViT 在多个效率度量标准上仍然是最佳选择，同时低推理内存和参数数量时，混合注意力 - CNN 模型表现良好，模型大小的缩放比图像大小更为重要，FLOPS 与训练内存之间存在强正相关性。

Aug, 2023

多尺度视觉变换器

Multiscale Vision Transformers 是一种用于视频和图像识别的多尺度特征层级转换器，它可基于视觉信号的密集性建模逐渐展开通道容量和降低空间分辨率得到的多尺度特征金字塔，它能优于大规模的外部预训练及在计算和参数方面更为昂贵的传统视觉转换器。

Apr, 2021

双窗口训练高分辨率视觉 Transformer

高效训练和推理高分辨率视觉 Transformer 模型的新策略是只保留 N 个随机窗口的高分辨率输入，通过学习窗口内的标记间的局部交互和窗口间的全局交互，模型能够直接处理高分辨率输入。这种策略在使用相对位置嵌入（如旋转嵌入）时表现出了显著的有效性，训练速度是全分辨率网络的 4 倍，而且与现有方法相比使用起来更加简单。将此策略应用于语义分割等密集视觉任务中，发现使用 2 个窗口的简单设置效果最佳，因此命名为 Win-Win 方法。将此策略进一步扩展到光流等双目任务中，达到了在 Spring 基准测试中超越最佳竞争对手一个数量级更快推理时间的最先进性能。

Oct, 2023

具有并行局部和全局自注意力的轻量级视觉变换器

我们将最新的 Vision Transformer PLG-ViT 重新设计为更紧凑和高效的架构，适合于计算资源有限的自动驾驶任务，通过减少参数数量和浮点运算来降低计算复杂性，并在性能适度下降的情况下将大小减小了 5 倍。

Jul, 2023

RVT: 用于 3D 对象操作的机器人视图变换器

本研究提出 RVT，一种基于多视角变形器的三维物体操作方法，在模拟和实际环境中均表现出色，相对于现有方法，其训练速度快 36 倍，推理速度快 2.3 倍，并仅需每项任务约 10 次演示即可达到良好的效果。

Jun, 2023