保守型脱机策略评估的幻觉对抗控制

Mar, 2023

保守型脱机策略评估的幻觉对抗控制

Hallucinated Adversarial Control for Conservative Offline Policy Evaluation

Jonas Rothfuss, Bhavya Sukhija, Tobias Birchler, Parnian Kassraie, Andreas Krause

TL;DR该研究提出了一种基于不确定性感知的学习模型的保守估计方法HAMBO，通过幻想最坏情况下的轨迹，并考虑其误差范围，从而得到给定策略性能的下界，且该方法在碳水化合物控制环境等场景中有效。

Abstract

We study the problem of conservative off-policy evaluation (COPE) where given an offline dataset of environment interactions, collected by other agents, we seek to obtain a (tight) lower bound on a policy's performance. This is crucial when deciding whether a given policy satisfies cer

发现论文，激发创造

具有潜在混淆因素的无限时段强化学习中的离线评估

针对强化学习领域中的Off-policy Evaluation问题，本研究提出了一种基于无法观测到的干扰变量的无限时域Markov决策过程方法，并通过使用代理估计稳态分布比率以及最优化平衡等阶段性的方法，从Off-policy数据中识别政策价值。

Jul, 2020

COMBO: 保守的离线基于模型的策略优化

该研究提出一种新的基于模型的线下强化学习算法（COMBO），该算法不需要显式的不确定性估计，通过对已学习模型下的滚动状态动作元组进行价值函数正则化，从而得到状态动作元组价值函数的保守估计。该方法可以优化真实策略价值的下限，且实验表明与先前的线下模型自由和基于模型的方法相比，COMBO在广泛研究的线下RL基准测试中表现持续改进。

Feb, 2021

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用Bayesian优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

面向运行时不确定性的鲁棒离线学习

论文提出了一种针对运行时不确定性的离线评估方法，该方法允许所得的估算器不仅对预期中的运行时不确定性具有鲁棒性，还对观察到的和意外的运行时不确定性具有鲁棒性，并且有效地证明其在仿真和现实世界在线实验中的鲁棒性。

Feb, 2022

RAMBO-RL：稳健性对抗性基于模型离线强化学习

提出Robust Adversarial Model-Based Offline RL（RAMBO），通过将问题建模为针对对手环境模型的两人零和博弈，训练出简单而精确地预测数据集过渡的模型和谨慎的策略，具有理论支持和比现有基线更出色的性能。

Apr, 2022

离线策略比较与置信度评估：基准和基线

本文通过在离线强化学习数据集上添加策略比较查询的方式创建了一个加置信度的离线政策比较基准(OPCC)，并对一类基于模型的基线的风险与覆盖率进行了实证评估，结果表明某些基线变体具有优势，同时未来研究中还有大有可为的改进空间。

May, 2022

基于模型的离线策略优化与对抗网络

使用对抗学习建立具有更好泛化性能的转移模型，能够更准确地量化模型不确定性，并在广泛研究的离线强化学习基准测试中胜过现有最先进的对照方法。

Sep, 2023

有限探索的双层离线策略优化

我们研究线下强化学习，旨在根据固定、预先收集的数据集学习出良好的策略。我们提出了一种双层结构的策略优化算法，通过模拟策略（上层）和值函数（下层）之间的层次交互来解决此任务中的分布偏移问题，尤其是在函数逼近的情况下。

Oct, 2023

通过离线策略评估的保守探索策略优化

为了在现实世界的系统中部署一种强化学习代理，必须对学习过程提供保证。我们研究了保守型探索问题，在此问题中，学习者必须至少能够保证其性能至少与基线策略相当好。我们提出了第一个适用于连续有限时间问题中策略优化的保守型可证明高效无模型算法。我们利用重要性抽样技术，通过算法自动生成的数据来反事实地评估保守条件。我们推导了一个遗憾界限，并且展示了在学习过程中从未违反保守约束条件的（高概率）证明。最后，我们利用这些见解，通过离策略策略评估技术构建了一般的深度强化学习保守型探索模式。我们经验证明了我们方法的有效性。

Dec, 2023

走向强壮的策略：通过对抗攻击和防守增强离线强化学习

该研究提出了一个框架，通过利用先进的对抗攻击和防御来提高离线强化学习模型的稳健性，并以D4RL基准进行了评估，结果显示了演员和评论家对攻击的脆弱性以及防御策略在提高策略稳健性方面的有效性，为提高实际场景中离线强化学习模型的可靠性提供了希望。

May, 2024