BriefGPT.xyz
大模型
Ask
alpha
关键词
return-based discrimination
搜索结果 - 1
ICLR
基于回报的对比表示学习在强化学习中的应用
本研究提出了新的辅助任务,通过回报信号,使得学到的表示区分具有不同回报的状态和动作对,从而可以更好地在 Atari 游戏和 DeepMind 控制套件等复杂任务中进行学习,并在与现有的辅助任务相结合时表现更好。
PDF
3 years ago
Prev
Next