BriefGPT.xyz
Ask
alpha
关键词
policy expansion
搜索结果 - 1
面向离线 - 在线强化学习的政策扩展方案
通过先预训练离线数据,再使用强化学习进行在线微调是一种有效的控制策略学习策略,本文提出了一种策略扩展方案以增加新的策略来参与探索,有效提高了学习效率和性能表现。
PDF
a year ago
Prev
Next