BriefGPT.xyz
Nov, 2024
离线强化学习的双重温和推广
Doubly Mild Generalization for Offline Reinforcement Learning
HTML
PDF
Yixiu Mao, Qi Wang, Yun Qu, Yuhang Jiang, Xiangyang Ji
TL;DR
本文解决了离线强化学习中的外推误差和价值高估问题,提出了双重温和推广(DMG)的方法,该方法有效利用了一定条件下的温和推广来提升性能。DMG通过温和的动作推广和温和的推广传播,理论上保证在理想情况下比样本内的最优策略表现更好,并在实验中在多个任务中取得了最先进的性能。
Abstract
Offline Reinforcement Learning
(RL) suffers from the extrapolation error and
Value Overestimation
. From a
Generalization
perspective, this
→