BriefGPT.xyz
Mar, 2025
离线强化学习中的可证明零样本泛化
Provable Zero-Shot Generalization in Offline Reinforcement Learning
HTML
PDF
Zhiyong Wang, Chen Yang, John C. S. Lui, Dongruo Zhou
TL;DR
本研究解决了离线强化学习(RL)中缺乏零样本泛化能力的问题。提出了悲观经验风险最小化(PERM)和悲观近端策略优化(PPPO)两种新方法,通过悲观策略评估引导策略学习,从而提升泛化能力。研究表明,PERM和PPPO能够找到近似最优的策略,标志着对离线强化学习中泛化现象基础的初步理解。
Abstract
In this work, we study
Offline Reinforcement Learning
(RL) with
Zero-Shot
Generalization
property (ZSG), where the agent has access to an
→