BriefGPT.xyz
Ask
alpha
关键词
in-sample softmax
搜索结果 - 1
离线强化学习中的样本内 Softmax
研究表明,在强化学习中,使用数据集中的动作来逼近 softmax 比逼近 max 更为简单,并提出基于此的在线学习算法 In-Sample Actor-Critic,该算法表现良好且适合微调。
PDF
a year ago
Prev
Next