基于模型的离线强化学习中的不确定性驱动轨迹截断

Apr, 2023

基于模型的离线强化学习中的不确定性驱动轨迹截断

Uncertainty-driven Trajectory Truncation for Model-based Offline Reinforcement Learning

Junjie Zhang, Jiafei Lyu, Xiaoteng Ma, Jiangpeng Yan, Jun Yang...

TL;DRTATU is proposed to address the issue of uncertainty in synthetic samples for model-based offline RL algorithms and has been shown to improve the performance of various RL algorithms on the D4RL benchmark.

Abstract

Equipped with the trained environmental dynamics, model-based offline reinforcement learning (RL) algorithms can often successfully learn good policies from fixed-sized datasets, even some datasets with poor quality. Unfortunately, however, it can not be guaranteed that the generated samples from the trained dynamics model are reliable (e.g., some synthetic

model-based offline reinforcement learning synthetic trajectory uncertainty performance bound d4rl benchmark

发现论文，激发创造

带模型不确定性的在线强化学习

本文提出了一种基于样本的方法来估计未知的不确定性集并设计了一种鲁棒 Q 学习算法和鲁棒 TDC 算法，可以在线上和增量的情况下实现，在不需要收敛性保证的情况下证明了 Q 学习算法收敛到最优的鲁棒 Q 函数，并证明了 TDC 算法渐近收敛到一些稳定点，在数值实验中进一步验证了算法的鲁棒性。

Sep, 2021

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

GTA: 借助导引的增强离线学习中的生成轨迹增强

离线强化学习中，利用生成轨迹增强（GTA）的数据增强策略可以提高数据质量并改善算法性能。

May, 2024

面向随机驾驶环境的不确定性感知决策变换器

在本文中，我们介绍了一种适用于随机驾驶环境规划的不确定性感知决策 Transformer（UNREST），该方法通过条件互信息来估计状态的不确定性，并相应地对序列进行分割，以从真实的代理动作结果中学习而不是环境转换，实验证明了 UNREST 在各种驾驶场景中的卓越性能和不确定性估计策略的巨大潜力。

Sep, 2023

蒙特卡罗强化学习中的轨迹截断

该研究提出了一种基于预算分配的数据收集策略，通过对轨迹进行截断来最小化策略的预期收益的经验估计的置信区间的宽度。研究还使用这种轨迹截断机制扩展了一种基于重要性采样的政策优化算法，并在数值比较中证明了该算法可以成功提高性能。

May, 2023

行为监督调节的离线强化学习

TD3-BST 是一种应用于脱机强化学习算法的不确定性模型，通过指导策略在数据集支持中选择动作，从而比先前的方法更有效地从离线数据集中学习策略，并在具有挑战性的基准测试中取得最佳性能，无需进行特定数据集的调整。

Apr, 2024

提高基于模型的离线强化学习的确定性不确定性传播

利用动量匹配离线模型优化的方法 (MOMBO)，通过确定性传播不确定性，解决了模型基于离线强化学习中由于过度惩罚导致次优策略问题的挑战，并通过在各种环境中的实证研究证明 MOMBO 是更稳定和更高效的方法。

Jun, 2024

脱机环境的贝叶斯逆转移学习

利用约束的方法从专家数据中学习变迁动力学的可靠估计来改进线下强化学习，减少策略差异，并结合不确定性估计推断出产生更高回报的行动部分排序和规划更安全和更具信息的策略。

Aug, 2023

不确定性感知策略优化：一种稳健、自适应的信任区域方法

在强化学习中，针对数据量有限的情况，提出了一种基于不确定性管理技术的深度策略优化方法，可以生成稳健的策略更新，适应学习过程中的不确定性水平。

Dec, 2020

信任自信模型 — 不确定性感知策动适应的基于模型的演员 - 评论家算法

基于模型的增强学习方法中，我们通过逐步增加模型预测长度来考虑模型的不确定性，以获得更准确的本地预测结果，并提出了一种易于调整的预测机制，相比于现有的深度增强学习方法在 MuJoCo 基准测试中获得了显著的数据效率和性能提升。

May, 2024