Jul, 2024

推广软演员-评论算法至离散动作空间

TL;DRATARI是一套用于强化学习研究的视频游戏,通过接收像素和游戏得分等信息,代理人学会了开发复杂策略,甚至可媲美专业人类游戏测试员。本文通过提出一种实际的离散型软策略-评论家算法(SAC)的变体,在先进的Rainbow变体BBF中进行离策略学习,从而将国际四分位数均值(IQM)从1.045提高到1.088,仅使用回放比例(RR)为2,训练时间严格为BBF的三分之一。作为IQM大于1表示超人类表现水平的值,SAC-BBF也是唯一仅使用RR 2达到超人类水平的无模型算法。