ENTROPY: 环境转换器和脱机策略优化

Mar, 2023

ENTROPY: 环境转换器和脱机策略优化

ENTROPY: Environment Transformer and Offline Policy Optimization

Pengqin Wang, Meixin Zhu, Shaojie Shen

TL;DR该研究提出了一种基于序列建模的架构，即 “环境变换器（Environment Transformer）”，以解决先前基于模型的离线强化学习方法在生成多步轨迹时缺乏长期预测能力的问题，并通过该架构提出了一种新的名为 ENTROPY 的强化学习算法，该算法通过通过 “环境变换器” 学习动态模型和奖励函数，并执行离线策略优化。该算法在 MuJoCo 连续控制 RL 环境上进行了评估，结果表明，相对于现有的基于模型的离线方法，ENTROPY 表现出更强大的长期轨迹预测能力，并与目前最先进的基于模型和基于模型的离线强化学习方法相比表现优秀。

Abstract

model-based methods provide an effective approach to offline reinforcement learning (RL). They learn an environmental dynamics model from interaction experiences and then perform policy optimization based on the

model-based offline reinforcement learning policy optimization sequence modeling long-term prediction

发现论文，激发创造

离线强化学习的多目标决策 Transformer

离线强化学习以多目标优化问题的形式重新定义为序列建模任务，引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制，达到或超过当前最先进方法的性能。

Aug, 2023

MOPO: 基于模型的离线策略优化

本文提出了一种基于模型的离线策略优化算法 (MOPO)，通过将模型地图上未知点处的即时报酬设置为高风险，从而优化模型训练过程中的代理策略，以解决离线数据分布发生漂移的问题，并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。

May, 2020

在线决策转换器

本文提出了基于序列建模的决策转换器（ODT）算法，该算法在离线预训练和在线调整中融合了序列级熵正则化和自回归建模目标，以实现高效的探索和调整。实验证明，在 D4RL 基准测试中，ODT 在绝对性能方面与最先进的方法具有竞争力，在微调过程中展现出更显著的提高。

Feb, 2022

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

离线强化学习中的引导式 Transformer

本文提出了一种名为 Bootstrapped Transformer 的新算法，将 bootstrapping 思想和模型自我生成更多离线数据相结合，进一步提高序列模型训练的效果，该方法在两个离线 RL 基准测试中均取得了优于其他强基线方法的效果，并分析其生成的伪数据所展示出的特点可能会对离线 RL 训练产生启示。

Jun, 2022

模型集成信任区域策略优化

通过使用深度神经网络同时学习模型和策略，我们分析了基于模型的增强学习方法的行为，并展示出学习到的策略倾向于利用模型学习不足的区域，导致训练不稳定。为了解决这个问题，我们提出使用模型集合来维护模型的不确定性并规范学习过程，并进一步展示，与 “Backpropagation through time” 相比，使用 “likelihood ratio” 导数可以获得更加稳定的学习。通过我们的方法 ME-TRPO，在具有挑战性的连续控制基准任务中，显著减少了比基于模型的深度 RL 方法所需的样本数量。

Feb, 2018

基于模型的离线策略优化与对抗网络

使用对抗学习建立具有更好泛化性能的转移模型，能够更准确地量化模型不确定性，并在广泛研究的离线强化学习基准测试中胜过现有最先进的对照方法。

Sep, 2023

MOReL：基于模型的离线强化学习

本研究提出了基于模型的离线强化学习算法 MOReL，具有模块化设计，可以用于模型生成、不确定性估计、规划等领域，实验结果表明，MOReL 能够达到或超过当前广泛研究的离线强化学习基准的最新结果。

May, 2020

离线强化学习的轨迹概括

通过世界转换器进行线下强化学习的离线轨迹泛化方法（OTTO）在 D4RL 基准数据集上验证了其相对于最先进的线下强化学习方法具有显著优势。

Apr, 2024

基于模型的离线优化的部署高效强化学习

本文提出了一个新概念 —— 部署效率，以衡量一个策略学习过程中使用的不同数据收集策略的数量，指出递归地使用现有的无模型离线强化学习算法不能实现实用的部署效率和样本效率，因此提出了一种名为 BREMEN 的新型基于模型的算法，在仅使用 10-20 倍于以前工作的数据的情况下，能够有效地离线优化策略，实现出色的部署效率和样本效率的学习，并使用仅 5-10 次部署即可在模拟的机器人环境中从头开始成功地学习策略，而标准强化学习基线的典型值是数百万次。

Jun, 2020