决策 S4:通过状态空间层实现高效基于序列的强化学习
对基于循环模型的顺序数据处理的最新方法进行了深入总结,并提供了关于体系结构和算法解决方案的完整分类,引导研究者在这一吸引人的研究领域进行进一步研究。
Jun, 2024
介绍了基于深度学习、HiPPO 形式和线性状态空间模型的结构化状态空间序列(S4)层,以及在其基础上引入了一种新的状态空间层 ——S5 层。与 S4 层使用多个独立的 SSM 相比,S5 层使用一个多输入、多输出的 SSM,从而实现了更高的计算效率和性能。S5 在长距离序列建模任务上达到了最新的最高性能,并使最难的 Path-X 任务的准确率达到了 98.5%。
Aug, 2022
本文基于序列建模思路,提出一种将强化学习抽象为序列建模问题的框架,使用 Transformer 架构和相关的语言建模技术(如 GPT-x 和 BERT)来解决增强学习任务,其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报,其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。
Jun, 2021
该研究探讨决策变压器架构中整合 Mamba 框架的潜在性能提升,并通过实验评估修改后的决策变压器模型 Decision Mamba 在不同决策环境中的效果,为顺序决策模型的发展做出贡献,突显了神经网络的架构和训练方法对复杂任务性能的重要影响,并突出了 Mamba 作为改进强化学习场景中基于 Transformer 模型的有效工具的潜力。
Mar, 2024
提出了一种结构化状态空间序列模型(S4),它在处理长依赖序列数据方面与传统模型相比有着更好的结果,通过调整状态矩阵可以将模型计算复杂度降低,达到了 SOTA 水平。
Oct, 2021
离线强化学习以多目标优化问题的形式重新定义为序列建模任务,引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制,达到或超过当前最先进方法的性能。
Aug, 2023
本文探讨了替代循环神经网络的 S4 模型和 Transformers 模型在增强学习模型中的应用及其优势,提出了第一个基于 S4 模型的世界模型,S4WM,其在各项测试中展现了超越 Transformers 的长期记忆和训练效率,结果为模型建立打下良好基础。
Jul, 2023
序列建模是跨多个领域的一个关键领域,包括自然语言处理、语音识别、时间序列预测、音乐生成和生物信息学。历史上,循环神经网络(RNNs)和长短时记忆网络(LSTMs)在机器翻译、命名实体识别等序列建模任务中占主导地位,但转换器的进步改变了这一范式,因为其性能更优越。然而,转换器面临 O (N^2) 注意力复杂度和处理归纳偏差的挑战。各种改进方法已被提出来应对这些问题,其中使用频谱网络或卷积在一些任务上表现良好,但仍然难以处理长序列。状态空间模型(SSMs)已经成为此背景下序列建模范式的有希望的可替代选择,特别是随着 S4 及其变种(如 S4nd、Hippo、Hyena、Diagnol State Spaces(DSS)、Gated State Spaces(GSS)、Linear Recurrent Unit(LRU)、Liquid-S4、Mamba 等)的出现。本综述将基于门控结构、结构体系和循环结构对基础 SSMs 进行分类,还重点介绍了 SSMs 在视觉、视频、音频、语音、语言(特别是长序列建模)、医疗(包括基因组学)、化学(如药物设计)、推荐系统和时间序列分析等领域的不同应用。此外,我们总结了 SSMs 在长序列竞技场(LRA)、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2 以及早餐、硬币、LVU 等各种时间序列数据集上的性能。有关 Mamba-360 工作的项目页面可在此网页上找到:https://github.com/badripatro/mamba360。
Apr, 2024
本文介绍了如何使用序列建模来解决强化学习问题,使用 Transformer 架构来建模轨迹上的分布,并改造了波束搜索作为规划算法,在长时间序列预测、模仿学习、目标条件下的强化学习和离线强化学习等方面展示了该方法的灵活性和高效性,同时将该方法与基于模型的算法相结合,使其在稀疏奖励、长时间序列任务中表现为最先进的计划器。
Jun, 2021
本研究通过将结构信息整合到在线逼近目标中,采用拉普拉斯正则化项,将状态空间模型理论扩展到时间图,提出了 GraphSSM 框架,用于建模时间图的动态性,实验证明 GraphSSM 在各种时间图基准测试中的有效性。
Jun, 2024