BriefGPT.xyz
Ask
alpha
关键词
scale-free rl algorithm
搜索结果 - 1
无标度对抗强化学习
该研究探讨了马尔可夫决策过程中的无标度学习问题,提出了一个通用的算法框架(SCB),并在对抗性多臂赌博机和对抗性马尔可夫决策过程中应用该框架,从而实现了无标度对抗性多臂赌博机的首个鲁棒(最小化)期望遗憾上界和首个高概率遗憾上界,并产生了第一
→
PDF
4 months ago
Prev
Next