BriefGPT.xyz
Ask
alpha
关键词
optimality rates
搜索结果 - 1
离线强化学习和模仿学习的联系:一则悲观的故事
提出了一种新的离线强化学习框架,将模仿学习和通用离线强化学习相结合,中心思想是测量从行为策略到专家策略的偏差,进一步研究了针对未知数据分布下的算法设计问题,提出了一种基于悲观策略的下限置信度算法 LCB,在多臂赌博机、情境赌博机和马尔可夫决
→
PDF
3 years ago
Prev
Next