决策堆栈：基于模块化生成模型的灵活强化学习

Jun, 2023

决策堆栈：基于模块化生成模型的灵活强化学习

Decision Stacks: Flexible Reinforcement Learning via Modular Generative Models

Siyan Zhao, Aditya Grover

TL;DR本研究提出决策栈（Decision Stacks），一种将目标条件策略代理分解为 3 个生成模块的生成框架，其中模块通过独立的生成模型模拟观察、奖励和动作的时间演变，并可并行学习。实验结果证明了 Decision Stacks 在离线策略优化方面的效果，优于现有方法，并实现了灵活的生成决策制定。

Abstract

reinforcement learning presents an attractive paradigm to reason about several distinct aspects of sequential decision making, such as specifying complex goals, planning future observations and actions, and critiquing their utilities. However, the combined integration of these capabili

reinforcement learning goal-conditioned policy agents decision stacks generative models offline policy optimization

发现论文，激发创造

决策和控制的深度生成模型

本论文旨在研究深度模型强化学习方法的实证不足，并提出解决方案，同时探讨现代生成建模工具箱中推理技术（包括波束搜索、分类器导向抽样和图像修复等）在强化学习问题中的有效规划策略。

Jun, 2023

条件生成建模是否足以支持决策制定？

本文探讨了利用条件生成模型解决顺序决策问题的可能性，并提出了一种新的 return-conditional diffusion 模型的策略模型，使得模型训练不再需要动态规划算法，成功在一些标准测试上优于现有离线强化学习算法，证明条件生成建模是一种强大的决策制定工具。

Nov, 2022

决策变压器：通过序列建模的强化学习

本文基于序列建模思路，提出一种将强化学习抽象为序列建模问题的框架，使用 Transformer 架构和相关的语言建模技术（如 GPT-x 和 BERT）来解决增强学习任务，其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报，其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。

Jun, 2021

串联马尔可夫链推理的策略梯度

该论文提出了一种新的强化学习决策框架，将智能体的行为建模为参数化推理马尔科夫链，利用可行的策略梯度估计进行优化，通过模拟推理马尔科夫链以接近其稳态分布来完成动作选择，并且可以通过适应性地缩短决策困难度来加速推理，该算法在诸如 Mujoco 和 DeepMind Control 等任务中实现了最先进的性能。

Oct, 2022

通过适应性规则对抗训练实现史塔克伯格博弈的坚韧强化学习

本文介绍了一种用于强化学习的 Stackelberg 游戏模型 ——RRL-Stack，旨在提供额外的鲁棒性训练和解决目前 RL 训练中存在的过度保守智能及训练不稳定等问题，并提出了一种基于 Stackelberg Policy Gradient 算法的解决方案，在单一和多智能体任务中展现更好的训练稳定性和鲁棒性。

Feb, 2022

风险敏感和鲁棒的基于模型的强化学习和规划

本研究主要关注序列决策算法中的不确定性和风险问题，通过探索规划和强化学习两种方法，尤其是面向基于模型算法的研究，旨在缓解 epistemic 和 aleatoric 不确定性问题。

Apr, 2023

面向连续决策的统一框架

近年来，自动规划（AP）和强化学习（RL）的整合引起了广泛关注。为了实现这种整合，我们试图提供一个适用于从传统规划到深度强化学习的任何方法的顺序决策制定（SDM）的通用框架，该框架借鉴了概率论和贝叶斯推断的概念。我们用训练和测试的马尔可夫决策过程（MDPs）集合来定义 SDM 任务，以考虑泛化性。我们提供了一个 SDM 的通用算法，并推测每个 SDM 方法都基于它。根据该算法，每个 SDM 算法可以被看作是通过利用可用的任务知识来迭代改进其解决方案估计的过程。最后，我们推导出一组用于计算 SDM 任务和方法的有趣属性的公式和算法，从而使得它们的经验评估和比较成为可能。

Oct, 2023

可验证和组合的强化学习系统

提出了一种可验证和组合强化学习的框架，其中包含一组学习单独子任务的子系统，并填充入标准任务的高层模型，将各个子任务组合成全部任务，成功证明了该框架的实用性和有效性。

Jun, 2021

使用新的模块化架构评估强化学习中的政策、损失和规划组合

本文提出基于模型的强化学习范式中的新型模块化软件架构和一组可以方便地重复使用和组装以构建新的基于模型的强化学习智能体的构建块，包括规划算法，策略以及损失函数，实验证明了该架构是有用的，可用于研究新环境和技术。

Jan, 2022

序列决策泛化学习

介绍了一种师徒模仿式学习方法和一种将强化学习模型转化为自然语言理解模型的方法，使得上下文化语言模型能够被引入顺序决策问题空间中，实现更好的学习速度和泛化能力。

Oct, 2020