VisualRWKV：探索用于视觉语言模型的递归神经网络

Jun, 2024

VisualRWKV：探索用于视觉语言模型的递归神经网络

VisualRWKV: Exploring Recurrent Neural Networks for Visual Language Models

Haowen Hou, Peigen Zeng, Fei Ma, Fei Richard Yu

TL;DR通过引入一种线性循环神经网络模型到多模态学习任务中，该研究提出了 VisualRWKV，它是首个应用线性 RNN 模型到视觉语言模型中的尝试，并通过数据相关的循环和提示增强建模能力，以及 2D 图像扫描机制来丰富对视觉序列的处理，实验证明 VisualRWKV 在各项基准测试中与基于 Transformer 的模型（如 LLaVA-1.5）相比具有竞争性能。

Abstract

visual language models (VLMs) have rapidly progressed with the recent success of large language models. However, there have been few attempts to incorporate efficient linear Recurrent Neural Networks (RNNs) architectures into VLMs. In this study, we introduce VisualRWKV, the first appl

visual language models linear rnns multimodal learning tasks data-dependent recurrence 2d image scanning

发现论文，激发创造

RWKV：为 Transformer 时代重新设计 RNN

本文提出了一种名为 Receptance Weighted Key Value（RWKV）的新型模型体系结构，它将 Transformer 的并行训练与 RNN 的高效推理相结合，并利用了线性注意机制，使模型既可以被阐释为 Transformer，也可以被阐释为 RNN，从而在训练期间并行计算，并在推理期间保持计算和记忆的复杂度恒定，从而成为第一个可扩展到数十亿参数的非 Transformer 架构，实验表明，RWKV 的表现与同样大小的 Transformer 相当，在序列处理任务中为权衡计算效率和模型性能迈出了重要的一步。

May, 2023

RWKV-TS：超越传统循环神经网络的时间序列任务

传统的循环神经网络在时间序列任务中曾占据主导地位，但最近在各个时间序列任务中逐渐衰退，因此我们设计了一种高效的基于循环神经网络的时间序列任务模型 RWKV-TS，该模型具有三个独特特点：（一）$O (L)$ 时间复杂度和内存使用的新型循环神经网络架构；（二）相较于传统循环神经网络更好地捕捉长期序列信息的能力；（三）具有高计算效率和有效规模扩展性的特点。通过大量实验，我们的 RWKV-TS 模型与最先进的基于 Transformer 或卷积神经网络模型相比具备竞争力的性能表现，特别值得注意的是 RWKV-TS 不仅性能可比，而且具有较低的延迟和内存使用。RWKV-TS 的成功鼓励了在时间序列领域中进一步探索和创新，其具备竞争性能、低延迟和高效内存使用的特点使其成为未来时间序列任务研究的有希望方向。

Jan, 2024

Vision-RWKV：高效可扩展的基于 RWKV 类架构的视觉感知

本研究介绍了 Vision-RWKV（VRWKV），这是一种从 NLP 领域的 RWKV 模型中修改而来并针对视觉任务进行了必要的改进的模型，它具有较低的空间聚合复杂性，能够高效处理高分辨率图像，无需窗口操作，并具有与 ViT 相媲美的分类性能，更快的速度和更低的内存使用，从而显示了 VRWKV 作为视觉感知任务的更高效替代品的潜力。

Mar, 2024

循环记忆网络语言建模

本文提出了一种新的循环神经网络体系结构 Recurrent Memory Network（RMN），不仅能够放大循环神经网络的作用，而且有助于我们理解其内部功能并发现数据中的潜在模式。在语言建模和句子完成任务上展示了 RMN 的强大性能。在长句完成挑战中，RMN 的准确性为 69.2％，超过了以前的最新技术水平。

Jan, 2016

用多模态递归神经网络来解释图像

本文提出了一种基于多模态循环神经网络 (m-RNN) 的模型，实现图像内容的生成式描述，模型包含句子的深度循环神经网络和图像的卷积神经网络两个子网络以及它们的多模态层，经验证在三个基准数据集上的表现优于现有方法，还可以应用于图像或句子的检索任务，比现有直接优化排名目标函数的方法取得了显著的性能提升。

Oct, 2014

RRWKV: 捕捉 RWKV 中的长程依赖

本文提出了回顾性接收加权键值（RRWKV）架构，通过将回顾能力融入到 RWKV 中，有效地吸收信息，同时保持存储和计算效率，从而解决了 RWKV 架构的局限性，能够更好地捕捉长程依赖。

Jun, 2023

多模态变长记忆转换器用于视觉语言导航

此篇研究提出了一种基于视觉和自然语言导航的多模态变长记忆转换器（MTVM）方法，用于模拟时间上下文，通过在存储器库中直接存储先前激活来跟踪导航轨迹，并提出了一种内存感知一致性损失来提高模型的性能。通过在 R2R 和 CVDN 数据集上的评估，该模型在验证集和测试集的成功率分别提高了 2％且将 CVDN 测试集的目标处理减少了 1.6m。

Nov, 2021

RWKV-CLIP：一个稳健的视觉 - 语言表示学习器

通过扩展数据集和模型架构，该研究进一步探索了具有对比语言 - 图像预训练（CLIP）的视觉语言任务的性能，在处理来自网站的图像 - 文本对时。通过引入多样化的描述生成框架，该研究提出了 RWKV-CLIP，其中结合了变压器的有效并行训练和循环神经网络的高效推理。通过广泛的实验和多种模型规模和预训练数据集，证明了 RWKV-CLIP 是一个强大而有效的视觉语言表征学习器，在线性探测、零样例分类和零样例图像 - 文本检索等多个下游任务中实现了最先进的性能。

Jun, 2024

一种用于时序数据的循环潜变量模型

本文研究了将潜在随机变量引入到循环神经网络（RNN）的动态隐藏状态中，结合变分自编码器，通过高级潜在随机变量建立了变分循环神经网络（VRNN），可以很好地建模结构化序列数据，如自然语音。通过对四个语音数据集和一个手写数据集的实证评估，证明了潜在随机变量在 RNN 动态隐藏状态中的重要作用。

Jun, 2015

长期循环卷积网络用于视觉识别和描述

研究比较深度卷积网络和带有循环结构的深度卷积神经网络的效果，针对视频识别、图像描述、检索以及视频叙事方面的问题，开发出一种新颖的循环卷积架构，该架构可以训练端到端，可以同时学习时间动态和卷积感知表示，并具有学习长期依赖性的能力。实验结果证明，循环卷积模型在识别或生成方面与现有的模型相比具有明显的优势。

Nov, 2014