离线强化学习对抗模型

Feb, 2023

Adversarial Model for Offline Reinforcement Learning

Mohak Bhardwaj, Tengyang Xie, Byron Boots, Nan Jiang, Ching-An Cheng

TL;DR提出 Adversarial Model for Offline Reinforcement Learning (ARMOR) 框架，通过对抗训练 Markov 决策过程模型，能够在数据覆盖不足情况下优化任意参考策略的性能，不需要使用模型集成，并可在各种超参数选择下提高参考策略的性能。

Abstract

We propose a novel model-based offline reinforcement learning (RL) framework, called adversarial model for Offline reinforcement learning

发现论文，激发创造

提出了一种名为 ARMOR 的新型基于模型的离线 RL 框架，可在面对不确定性时优化最坏情况下的相对性能并学习在任何超参数下始终不降级基线策略的稳健策略改进，使其特别适用于建立实际学习系统。

Nov, 2022

提出 Robust Adversarial Model-Based Offline RL（RAMBO），通过将问题建模为针对对手环境模型的两人零和博弈，训练出简单而精确地预测数据集过渡的模型和谨慎的策略，具有理论支持和比现有基线更出色的性能。

Apr, 2022

使用对抗学习建立具有更好泛化性能的转移模型，能够更准确地量化模型不确定性，并在广泛研究的离线强化学习基准测试中胜过现有最先进的对照方法。

Sep, 2023

该研究提出了一个框架，通过利用先进的对抗攻击和防御来提高离线强化学习模型的稳健性，并以 D4RL 基准进行了评估，结果显示了演员和评论家对攻击的脆弱性以及防御策略在提高策略稳健性方面的有效性，为提高实际场景中离线强化学习模型的可靠性提供了希望。

May, 2024

提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法，该方法将敌对训练与零和极小优化相结合，通过训练一个智能体，使其能够在真实系统上的杂乱因素和不确定性下操作，并在多种环境中进行了验证。

Mar, 2017

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

本篇论文提出了一种基于模型的强化学习解决方案，使用生成对抗网络对用户代理交互进行建模，实现了离线策略学习。理论分析和实证评估证明了该解决方案在从离线和生成数据学习策略方面的有效性。

Nov, 2019

本研究提出了基于模型的离线强化学习算法 MOReL，具有模块化设计，可以用于模型生成、不确定性估计、规划等领域，实验结果表明，MOReL 能够达到或超过当前广泛研究的离线强化学习基准的最新结果。

May, 2020

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

本文提出了一种算法框架，用于在不完美信息的非对称博弈中学习鲁棒策略，并通过对手建模来推断对手类型，使用多智能体强化学习技术通过自我博弈学习对手模型，并使用集成训练方法来提高策略的稳健性，借助随机优化方案动态更新对手整体来平衡稳健性和计算复杂性。

Sep, 2019