基于模型的离线策略优化与对抗网络

Sep, 2023

基于模型的离线策略优化与对抗网络

Model-based Offline Policy Optimization with Adversarial Network

Junming Yang, Xingguo Chen, Shengyuan Wang, Bolei Zhang

TL;DR使用对抗学习建立具有更好泛化性能的转移模型，能够更准确地量化模型不确定性，并在广泛研究的离线强化学习基准测试中胜过现有最先进的对照方法。

Abstract

model-based offline reinforcement learning (RL), which builds a supervised transition model with logging dataset to avoid costly interactions with the online environment, has been a promising approach for offline policy optimization. As the discrepancy between the logging data and onli

model-based offline reinforcement learning transition models uncertainty estimation adversarial learning offline rl benchmarks

发现论文，激发创造

MOPO: 基于模型的离线策略优化

本文提出了一种基于模型的离线策略优化算法 (MOPO)，通过将模型地图上未知点处的即时报酬设置为高风险，从而优化模型训练过程中的代理策略，以解决离线数据分布发生漂移的问题，并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。

May, 2020

离线强化学习对抗模型

提出 Adversarial Model for Offline Reinforcement Learning (ARMOR) 框架，通过对抗训练 Markov 决策过程模型，能够在数据覆盖不足情况下优化任意参考策略的性能，不需要使用模型集成，并可在各种超参数选择下提高参考策略的性能。

Feb, 2023

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

RAMBO-RL：稳健性对抗性基于模型离线强化学习

提出 Robust Adversarial Model-Based Offline RL（RAMBO），通过将问题建模为针对对手环境模型的两人零和博弈，训练出简单而精确地预测数据集过渡的模型和谨慎的策略，具有理论支持和比现有基线更出色的性能。

Apr, 2022

MOReL：基于模型的离线强化学习

本研究提出了基于模型的离线强化学习算法 MOReL，具有模块化设计，可以用于模型生成、不确定性估计、规划等领域，实验结果表明，MOReL 能够达到或超过当前广泛研究的离线强化学习基准的最新结果。

May, 2020

带有对抗训练的模型强化学习在在线推荐中的应用

本篇论文提出了一种基于模型的强化学习解决方案，使用生成对抗网络对用户代理交互进行建模，实现了离线策略学习。理论分析和实证评估证明了该解决方案在从离线和生成数据学习策略方面的有效性。

Nov, 2019

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

稳健离线深度强化学习中克服模型偏差

本研究提出了一种基于动力学模型的离线策略搜索算法 MOOSE，使用动力学模型评估策略的性能，得出了比当下主流的无模型、离线强化学习算法 BRAC、BEAR 和 BCQ 更稳健的结果。

Aug, 2020

离线强化学习策略应该被训练成具有自适应性

该研究提出离线 RL 方法应该适应不确定性，提出了一种基于贝叶斯优化的自适应算法用于近似离线 RL 的最优自适应策略，并且在离线 RL 基准测试中展示了其有效性。

Jul, 2022

走向强壮的策略：通过对抗攻击和防守增强离线强化学习

该研究提出了一个框架，通过利用先进的对抗攻击和防御来提高离线强化学习模型的稳健性，并以 D4RL 基准进行了评估，结果显示了演员和评论家对攻击的脆弱性以及防御策略在提高策略稳健性方面的有效性，为提高实际场景中离线强化学习模型的可靠性提供了希望。

May, 2024