Seg-LSTM: 遥感图像语义分割的 xLSTM 性能

Jun, 2024

Seg-LSTM: 遥感图像语义分割的 xLSTM 性能

Seg-LSTM: Performance of xLSTM for Semantic Segmentation of Remotely Sensed Images

Qinfeng Zhu, Yuanzhi Cai, Lei Fan

TL;DR近期自回归网络的线性复杂度提升极大地推动了研究进展，在大型语言模型上表现出色。代表性模型为扩展长短期记忆网络 (xLSTM)，其融合了门控机制和记忆结构，在长序列语言任务上与 Transformer 架构可媲美。自回归网络如 xLSTM 可利用图像串行化扩展其应用于诸如分类和分割等视觉任务。尽管现有研究已经在图像分类方面证明了 Vision-LSTM 的出色结果，但其在图像语义分割方面的表现尚未得到验证。我们的研究首次尝试评估 Vision-LSTM 在遥感图像语义分割中的有效性。此评估基于一种名为 Seg-LSTM 的经过专门设计的编码器 - 解码器架构，并与目前最先进的分割网络进行比较。我们的研究发现 Vision-LSTM 在语义分割方面的表现受限，一般较 Vision-Transformers 和 Vision-Mamba 模型差强人意。建议未来研究方向是增强 Vision-LSTM。源代码可从此链接获取。

Abstract

Recent advancements in autoregressive networks with linear complexity have driven significant research progress, demonstrating exceptional performance in large language models. A representative model is the Extended Long Short-Term Memory (xLSTM), which incorporates gating mechanisms a

autoregressive networks extended long short-term memory vision-lstm image semantic segmentation vision-transformers

发现论文，激发创造

视觉 xLSTM 嵌入的 UNet 在医学三维图像分割中更可靠吗？

这篇论文研究了将 CNN 和 Vision-xLSTM 模型相结合的新方法 UVixLSTM，提出了它作为医学图像分割任务可靠的主干结构，提供出色的分割性能和较低的计算复杂性，并在公开可用的 Synapse 数据集上展现了卓越的性能。

Jun, 2024

Vision-LSTM: xLSTM 作为通用视觉主干网络

将 xLSTM 构建模块应用于计算机视觉领域，ViL 展现出成为新的通用骨干框架的潜力。

Jun, 2024

xLSTM-UNet 可作为一个有效的 2D 和 3D 医学图像分割骨干，其 Vision-LSTM (ViL) 相较于其 Mamba 对应物更佳

提出了 xLSTM-UNet，这是一种基于 Convolutional Neural Networks 和 Vision Transformers 的深度学习神经网络，用于解决生物医学图像分割中的长距离依赖性问题，并通过实验证实了其在多个数据集中超越了其他基于 CNN、Transformer 和 Mamba 的分割网络，表明了 xLSTM-UNet 在 2D 和 3D 生物医学图像分析中的潜力。

Jul, 2024

基于卷积 LSTM 的未来语义分割

本文提出了一种新的模型，使用 ConvLSTM 编码观察到的视频帧的时空信息来预测未观察到的未来帧的语义分割图，并扩展了双向 ConvLSTM 来捕获双向的时间信息，该方法在基准数据集上优于其他最先进的方法，为实时决策制定提供了可靠的解决方案。

Jul, 2018

使用深度双向 LSTM 进行图像字幕生成

本研究提出了一种端到端可训练的深度双向 LSTM 模型，用于图像字幕生成，增加了数据增强技术，并在三个基准数据集上进行了评估，证明其性能竞争力强。

Apr, 2016

联合建模嵌入和翻译以桥接视频和语言

本文提出了一种名为 LSTM-E 的新型统一框架，它可以同时探索 LSTM 和视觉 - 语义嵌入的学习，以有效生成自然语言描述的视频内容，实验表明 LSTM-E 在生成自然语言句子方面的表现优于目前为止的最佳表现，对于预测 SVO 三元组也超过了几种最先进的技术。

May, 2015

基于图 LSTM 的语义对象分析

本文提出了一种新的基于图结构的 LSTM 网络 (Graph LSTM)，将任意形状的超像素作为拓扑结构的节点来自适应构建图拓扑结构，提供更加自然的信息传递路径，并使用自信度驱动的策略逐渐更新节点的隐藏状态和记忆状态。在四个数据集上进行综合评估表明，Graph LSTM 相对于其他最先进的解决方案具有显著的优越性。

Mar, 2016

基于 LSTM 的端到端视觉语音识别

本文提出一种基于 LSTM 网络的端到端视觉语音识别系统，同时学习从像素直接提取特征和分类，取得了最先进的视觉语音分类性能。其中包括从口和差异图像中直接提取特征的两个流和通过 Bidirectional LSTM（BLSTM）融合这两个流。在 OuluVS2 数据库上比基准提高了 9.7％，在 CUAVE 数据库上比其他使用类似视觉前端的方法提高了 1.5％。

Jan, 2017

序列器：深度长短期记忆网络用于图像分类

本研究提出一种名为 Sequencer 的新型卷积神经网络架构，使用 LSTM 来建模长距离依赖关系，不同于改进自然语言处理的自注意力的 ViT，通过多项实验表明其具有很高的性能表现，同时在双重分辨率下具有良好的适应性。

May, 2022

使用 LSTMs 进行视频表示的无监督学习

使用多层 LSTM 网络来学习视频序列的表示，采用编码器 LSTM 将输入序列映射成固定长度的表示，通过单个或多个解码器 LSTM 解码以执行不同的任务，如重构输入序列或预测未来序列，实验说明预先训练好的模型在人类动作识别等任务上的有效性。

Feb, 2015