Vision-LSTM: xLSTM 作为通用视觉主干网络

Jun, 2024

Vision-LSTM: xLSTM 作为通用视觉主干网络

Vision-LSTM: xLSTM as Generic Vision Backbone

Benedikt Alkin, Maximilian Beck, Korbinian Pöppel, Sepp Hochreiter, Johannes Brandstetter

TL;DR将 xLSTM 构建模块应用于计算机视觉领域，ViL 展现出成为新的通用骨干框架的潜力。

Abstract

transformers are widely used as generic backbones in computer vision, despite initially introduced for natural language processing. Recently, the Long Short-Term Memory (→

transformers lstm xlstm vision-lstm computer vision

发现论文，激发创造

Seg-LSTM: 遥感图像语义分割的 xLSTM 性能

近期自回归网络的线性复杂度提升极大地推动了研究进展，在大型语言模型上表现出色。代表性模型为扩展长短期记忆网络 (xLSTM)，其融合了门控机制和记忆结构，在长序列语言任务上与 Transformer 架构可媲美。自回归网络如 xLSTM 可利用图像串行化扩展其应用于诸如分类和分割等视觉任务。尽管现有研究已经在图像分类方面证明了 Vision-LSTM 的出色结果，但其在图像语义分割方面的表现尚未得到验证。我们的研究首次尝试评估 Vision-LSTM 在遥感图像语义分割中的有效性。此评估基于一种名为 Seg-LSTM 的经过专门设计的编码器 - 解码器架构，并与目前最先进的分割网络进行比较。我们的研究发现 Vision-LSTM 在语义分割方面的表现受限，一般较 Vision-Transformers 和 Vision-Mamba 模型差强人意。建议未来研究方向是增强 Vision-LSTM。源代码可从此链接获取。

Jun, 2024

xLSTM-UNet 可作为一个有效的 2D 和 3D 医学图像分割骨干，其 Vision-LSTM (ViL) 相较于其 Mamba 对应物更佳

提出了 xLSTM-UNet，这是一种基于 Convolutional Neural Networks 和 Vision Transformers 的深度学习神经网络，用于解决生物医学图像分割中的长距离依赖性问题，并通过实验证实了其在多个数据集中超越了其他基于 CNN、Transformer 和 Mamba 的分割网络，表明了 xLSTM-UNet 在 2D 和 3D 生物医学图像分析中的潜力。

Jul, 2024

序列器：深度长短期记忆网络用于图像分类

本研究提出一种名为 Sequencer 的新型卷积神经网络架构，使用 LSTM 来建模长距离依赖关系，不同于改进自然语言处理的自注意力的 ViT，通过多项实验表明其具有很高的性能表现，同时在双重分辨率下具有良好的适应性。

May, 2022

xLSTM：扩展的长短期记忆

我们修改并扩展 LSTM 的门控机制和记忆结构，得到了 xLSTM 模型，该模型在性能和规模上与最先进的 Transformer 模型和状态空间模型相比表现出色。

May, 2024

视觉 xLSTM 嵌入的 UNet 在医学三维图像分割中更可靠吗？

这篇论文研究了将 CNN 和 Vision-xLSTM 模型相结合的新方法 UVixLSTM，提出了它作为医学图像分割任务可靠的主干结构，提供出色的分割性能和较低的计算复杂性，并在公开可用的 Synapse 数据集上展现了卓越的性能。

Jun, 2024

深度循环神经网络的 LiteLSTM 架构

该研究论文介绍了一种基于权重共享概念的新型 LiteLSTM 体系结构，通过减少 LSTM 的计算组件来降低整体架构成本和维护架构性能，从而提高学习大数据的效率，尤其适用于物联网设备和医学数据的安全性，同时有助于减少 CO2 排放。该模型在计算机视觉和网络安全领域的两个不同数据集上进行了实证评估和测试。

Jan, 2022

LSTM: 一次搜索空间的奥德赛

本文针对典型 Long Short-Term Memory（LSTM）网络的各种计算组件的角色和实用性进行了大规模分析，并在三个代表性任务上比较了八种 LSTM 变体。结果表明，遗忘门和输出激活函数是 LSTM 架构最关键的组件。此外，在研究的超参数方面，我们发现它们几乎是独立的，并提出了调整它们的有效指导方针。

Mar, 2015

ViTamin：设计可扩展的视觉模型在视觉语言时代

该论文介绍了一种基于对比性语言 - 图像预训练框架的视觉模型评估协议，其中引入了一种新的视觉模型 ViTamin，该模型在零样本任务和模型规模扩展等方面表现出色。

Apr, 2024

使用深度双向 LSTM 进行图像字幕生成

本研究提出了一种端到端可训练的深度双向 LSTM 模型，用于图像字幕生成，增加了数据增强技术，并在三个基准数据集上进行了评估，证明其性能竞争力强。

Apr, 2016

基于 LSTM 的端到端视觉语音识别

本文提出一种基于 LSTM 网络的端到端视觉语音识别系统，同时学习从像素直接提取特征和分类，取得了最先进的视觉语音分类性能。其中包括从口和差异图像中直接提取特征的两个流和通过 Bidirectional LSTM（BLSTM）融合这两个流。在 OuluVS2 数据库上比基准提高了 9.7％，在 CUAVE 数据库上比其他使用类似视觉前端的方法提高了 1.5％。

Jan, 2017