BriefGPT.xyz
Sep, 2023
斯塔克伯格批量策略学习
Stackelberg Batch Policy Learning
HTML
PDF
Wenzhuo Zhou, Annie Qu
TL;DR
本研究提出了一种基于 Stackelberg 的学习算法,用于批量强化学习中的政策学习问题,通过采用领导者-追随者结构的博弈论视角,该算法具有收敛性保证和对不同iable Stackelberg均衡的收敛性保证,实验证明其在批处理强化学习基准和真实世界数据集上表现良好。
Abstract
batch reinforcement learning
(RL) defines the task of learning from a fixed batch of data lacking exhaustive exploration.
worst-case optimality algorithms
, which calibrate a value-function model class from logged
→