保守型脱机策略评估的幻觉对抗控制
针对强化学习领域中的Off-policy Evaluation问题,本研究提出了一种基于无法观测到的干扰变量的无限时域Markov决策过程方法,并通过使用代理估计稳态分布比率以及最优化平衡等阶段性的方法,从Off-policy数据中识别政策价值。
Jul, 2020
该研究提出一种新的基于模型的线下强化学习算法(COMBO),该算法不需要显式的不确定性估计,通过对已学习模型下的滚动状态动作元组进行价值函数正则化,从而得到状态动作元组价值函数的保守估计。该方法可以优化真实策略价值的下限,且实验表明与先前的线下模型自由和基于模型的方法相比,COMBO在广泛研究的线下RL基准测试中表现持续改进。
Feb, 2021
本研究比较不同的不确定性启发式方法,并设计新的协议来研究它们与其他超参数的交互作用,使用这些洞见,我们展示了使用Bayesian优化选择这些关键超参数可以产生优越的配置,这与现有手动调整的最先进方法大不相同, 从而实现了大幅度的强化学习。
Oct, 2021
论文提出了一种针对运行时不确定性的离线评估方法,该方法允许所得的估算器不仅对预期中的运行时不确定性具有鲁棒性,还对观察到的和意外的运行时不确定性具有鲁棒性,并且有效地证明其在仿真和现实世界在线实验中的鲁棒性。
Feb, 2022
提出Robust Adversarial Model-Based Offline RL(RAMBO),通过将问题建模为针对对手环境模型的两人零和博弈,训练出简单而精确地预测数据集过渡的模型和谨慎的策略,具有理论支持和比现有基线更出色的性能。
Apr, 2022
本文通过在离线强化学习数据集上添加策略比较查询的方式创建了一个加置信度的离线政策比较基准(OPCC),并对一类基于模型的基线的风险与覆盖率进行了实证评估,结果表明某些基线变体具有优势,同时未来研究中还有大有可为的改进空间。
May, 2022
我们研究线下强化学习,旨在根据固定、预先收集的数据集学习出良好的策略。我们提出了一种双层结构的策略优化算法,通过模拟策略(上层)和值函数(下层)之间的层次交互来解决此任务中的分布偏移问题,尤其是在函数逼近的情况下。
Oct, 2023
为了在现实世界的系统中部署一种强化学习代理,必须对学习过程提供保证。我们研究了保守型探索问题,在此问题中,学习者必须至少能够保证其性能至少与基线策略相当好。我们提出了第一个适用于连续有限时间问题中策略优化的保守型可证明高效无模型算法。我们利用重要性抽样技术,通过算法自动生成的数据来反事实地评估保守条件。我们推导了一个遗憾界限,并且展示了在学习过程中从未违反保守约束条件的(高概率)证明。最后,我们利用这些见解,通过离策略策略评估技术构建了一般的深度强化学习保守型探索模式。我们经验证明了我们方法的有效性。
Dec, 2023
该研究提出了一个框架,通过利用先进的对抗攻击和防御来提高离线强化学习模型的稳健性,并以D4RL基准进行了评估,结果显示了演员和评论家对攻击的脆弱性以及防御策略在提高策略稳健性方面的有效性,为提高实际场景中离线强化学习模型的可靠性提供了希望。
May, 2024