BriefGPT.xyz
Ask
alpha
关键词
gradient norm reward signals
搜索结果 - 1
基于梯度奖励信号的自动课程学习
使用梯度范数奖励信号在深度强化学习的自动课程学习(ACL)中的影响研究。通过分析多个强化学习环境,发现梯度范数奖励对于教师模型制定具有挑战性且可达成的学习序列相当有效,进一步提高了学生的性能,加速了学习过程并改进了任务的泛化和适应性。这些研
→
PDF
7 months ago
Prev
Next