离线强化学习中的选择性不确定性传播
提出了一种不确定性感知的离线强化学习方法,同时解决了认知不确定性和环境随机性,能够学习风险规避策略并表征折扣累积奖励的整个分布。通过在风险敏感和风险中立基准测试中进行全面实验评估,证明了其卓越的性能。
Mar, 2024
本文利用不确定性集来直接建模转移内核的不确定性,并采用分布稳健优化方法,通过优化在不确定性集中的最坏情况下的性能来解决先前研究所面临的有限数据和分布转移的问题。
May, 2023
本文提出了一种采用动态规划和固定点求解的方法,用以控制训练中的数据采样分布并改善数据利用效率,在 D4RL 数据集上表现优于其他已有方法的离线强化学习培训方式。
Jul, 2023
离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决,本文提出了两种使用该框架的离线强化学习算法,并通过模拟实验展示了其优越性能。
Oct, 2023
提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法,通过将状态价值函数视为随机变量,利用泛化能力估计在给定状态下最佳可用行为的价值,实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。
Oct, 2021
我们提出了一个基于模型的离线强化学习策略性能下限,明确捕捉动力学模型误差和分布不匹配,并提出一种用于最优离线策略选择的实证算法。我们通过建立对价值函数的悲观近似来证明了一种新的安全策略改进定理。我们的关键见解是同时考虑动力学模型和策略的选择:只要动力学模型能够准确地表示给定策略访问的状态 - 操作对的动态特性,就可能近似该特定策略的值。我们在 LQR 设置下分析了我们的下限,并在一组 D4RL 任务的策略选择上展示了有竞争力的性能下限。
Jan, 2023
本研究比较不同的不确定性启发式方法,并设计新的协议来研究它们与其他超参数的交互作用,使用这些洞见,我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置,这与现有手动调整的最先进方法大不相同, 从而实现了大幅度的强化学习。
Oct, 2021
利用动量匹配离线模型优化的方法 (MOMBO),通过确定性传播不确定性,解决了模型基于离线强化学习中由于过度惩罚导致次优策略问题的挑战,并通过在各种环境中的实证研究证明 MOMBO 是更稳定和更高效的方法。
Jun, 2024
本文研究提供确凿的样本高效离线强化学习算法需要什么样的可表示和分布条件。研究发现,即使有到所有策略的真实价值函数都线性映射到一组给定的特征,并且有关于策略的所有特征的良好聚集离线数据(在强谱条件下),任何算法仍然需要指数级的离线样本数量来估计任何给定策略的价值。
Oct, 2020