Feb, 2023

离线强化学习中的样本内 Softmax

TL;DR研究表明,在强化学习中,使用数据集中的动作来逼近 softmax 比逼近 max 更为简单,并提出基于此的在线学习算法 In-Sample Actor-Critic,该算法表现良好且适合微调。