BriefGPT.xyz
Ask
alpha
关键词
extrapolation error
搜索结果 - 5
改进带有不准确模拟器的离线强化学习
提出一种结合离线数据集和不准确模拟数据的新方法,通过预先训练生成对抗网络模型来适应离线数据集的状态分布,并通过鉴别器重新加权不准确模拟数据,实验证实该方法能够在 D4RL 基准和实际操作任务中比现有方法获得更好的性能。
PDF
2 months ago
ICML
离线强化学习的支持信任域优化
在离线强化学习中,基于行为策略的支持约束的支持下的支持信任区域优化(STR)保证了严格的策略改进,并在包括近似误差和采样误差的情况下保证步骤的安全策略改进,其理论和实证结果验证了其在 MuJoCo 运动领域和具有更具挑战性的 AntMaze
→
PDF
8 months ago
离线增强学习与在线策略 Q 函数规范化
提出了两种算法,利用行为策略的 Q 函数通过正则化来解决离线强化学习中由于数据分布变化而引起的外推误差,该方法在 D4RL 基准测试中表现出良好的性能。
PDF
a year ago
ICLR
悲观引导的不确定性驱动离线强化学习
本文提出了一种基于纯不确定性驱动的离线策略学习算法 - 悲观引导离线学习 (PBRL),它通过引入一种 Q 函数的不确定度来量化不确定性,并以此进行悲观更新,以解决离线学习中由行为分布外数据所产生的外推误差问题。实验证明,相比现有算法,PB
→
PDF
2 years ago
信其所见:离线多智能体强化学习的隐式约束方法
本文介绍了一种新的离线强化学习算法 ICQ,它通过只信任数据集中的状态 - 动作对来有效减轻外推误差,并将其扩展到多智能体任务中,表现出明显的性能优势。
PDF
3 years ago
Prev
Next