BriefGPT.xyz
Ask
alpha
关键词
robust active policy selection
搜索结果 - 1
融合模仿学习和强化学习以实现鲁棒的策略改进
该研究通过融合强化学习和模仿学习的方法,利用自适应的策略选择和梯度优化算法,在稀疏奖励场景下有效提高样本效率,并在多个基准领域中展现出卓越的性能。
PDF
9 months ago
Prev
Next