BriefGPT.xyz
Ask
alpha
关键词
diversity measurement
搜索结果 - 1
使用软自我生成指导学习多样化策略
通过使用多样的过去轨迹作为指导,而不是模仿它们,本文提出了一种方法,使得在线强化学习更快、更高效,即使这些轨迹是次优的或未获得高奖励;此外,引入了一种新的多样性度量来保持团队的多样性和调节探索。在离散和连续控制任务中评估了所提出的算法,与现
→
PDF
5 months ago
Prev
Next