面向运行时不确定性的鲁棒离线学习

AAAIFeb, 2022

面向运行时不确定性的鲁棒离线学习

Towards Robust Off-policy Learning for Runtime Uncertainty

Da Xu, Yuting Ye, Chuanwei Ruan, Bo Yang

TL;DR论文提出了一种针对运行时不确定性的离线评估方法，该方法允许所得的估算器不仅对预期中的运行时不确定性具有鲁棒性，还对观察到的和意外的运行时不确定性具有鲁棒性，并且有效地证明其在仿真和现实世界在线实验中的鲁棒性。

Abstract

off-policy learning plays a pivotal role in optimizing and evaluating policies prior to the online deployment. However, during the real-time serving, we observe varieties of interventions and constraints that cause inconsistency between the online and offline settings, which we summari

off-policy learning robustness runtime uncertainty inverse propensity score method doubly robust method

发现论文，激发创造

不确定性感知的离线学习

本研究通过显式建模不确定性，并提出一种不确定性感知的倾向得分估计器（UIPS），可改进离线策略优化，实验结果表明其比现有方法更具有样本效益。

Mar, 2023

基于不确定性的分布离线强化学习

提出了一种不确定性感知的离线强化学习方法，同时解决了认知不确定性和环境随机性，能够学习风险规避策略并表征折扣累积奖励的整个分布。通过在风险敏感和风险中立基准测试中进行全面实验评估，证明了其卓越的性能。

Mar, 2024

分布鲁棒优化有效地解决离线强化学习问题

本文利用不确定性集来直接建模转移内核的不确定性，并采用分布稳健优化方法，通过优化在不确定性集中的最坏情况下的性能来解决先前研究所面临的有限数据和分布转移的问题。

May, 2023

不确定性感知策略优化：一种稳健、自适应的信任区域方法

在强化学习中，针对数据量有限的情况，提出了一种基于不确定性管理技术的深度策略优化方法，可以生成稳健的策略更新，适应学习过程中的不确定性水平。

Dec, 2020

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

提高基于模型的离线强化学习的确定性不确定性传播

利用动量匹配离线模型优化的方法 (MOMBO)，通过确定性传播不确定性，解决了模型基于离线强化学习中由于过度惩罚导致次优策略问题的挑战，并通过在各种环境中的实证研究证明 MOMBO 是更稳定和更高效的方法。

Jun, 2024

如何在近端策略优化中实现不确定性估计

该研究提出了 Actor-Critic RL 算法的不确定性和 OOD 状态的定义，使用多种不确定性估计方法，展示不同的 OOD 检测性能，并提出了一种 Pareto 优化问题的解决方案，应用 Masksembles 方法成功的平衡了奖励和 OOD 检测性能。

Oct, 2022

基于不确定性和平滑性的稳健离线到在线强化学习

提出了一种名为 Robust Offline-to-Online (RO2O) 算法的方法，通过不确定性和平滑性来增强离线策略，并在在线适应中减少性能下降，实验结果表明其在促进稳定的离线到在线学习方面具有优越性。

Sep, 2023

用户交互离线强化学习

本论文提出了一种算法，使用户可以同时解决由于性能不佳或行为不熟悉而导致的问题，通过调整运行时的设定，可以逐步调整最重要的超参数 —— 将学习的策略与原始策略之间的接近程度，并在策略降级或行为过于偏离熟悉行为时随时停止。

May, 2022

基于深度模型的强化学习：通过估计不确定性和保守策略优化

这篇论文提出了一种新的基于模型不确定性的政策优化方法 POMBU，通过利用 Q 值的不确定性，可以有效提高渐近性能并提高样本效率，并通过保守的优化算法实现鲁棒性。实验证明，POMBU 在样本效率和渐近性能方面优于现有的最先进的算法，并且相对于以前的基于模型的方法具有很好的鲁棒性。

Nov, 2019