BriefGPT.xyz
大模型
Ask
alpha
关键词
run time optimization
搜索结果 - 1
离线强化学习的极简主义方法
通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据,在保持简单性的同时,最大限度地提高了运行效率,从而实现了与现有离线 RL 算法相当的性能。
PDF
3 years ago
Prev
Next