BriefGPT.xyz
Ask
alpha
关键词
delayed reward
搜索结果 - 4
通过学习动机一致的内在回报自动设计奖励
本文提出了一种基于动机的奖励设计方法,自动生成目标一致的内在奖励,以最大程度地增大期望的累积外在奖励,该方法在处理延迟奖励、探索和信用分配问题方面优于现有方法。
PDF
2 years ago
生成敌对自模仿学习
本文提出了一种基于生成对抗自模仿学习 (GASIL) 的简单正则化方法,旨在通过基于生成对抗模仿学习框架鼓励智能体模仿过去的良好轨迹,而非直接最大化奖励,从而在奖励稀疏和滞后时更容易进行长期信用分配。通过使用 GASIL 作为学习形状奖励函
→
PDF
6 years ago
ICML
多任务深度强化学习中的零样本任务泛化
在强化学习中,我们介绍了一种新的强化学习问题,其中代理需要在学习解决子任务的有用技能后学习执行指令序列。我们考虑到先前未见的指令和更长的指令序列的泛化,为此,我们提出了一种基于类比的新目标和一个层次结构架构,并提出了一个新的神经网络架构来解
→
PDF
7 years ago
损失即奖励:自监督增强学习
本文探讨了如何通过自我监督预训练和联合优化来增加辅助损失,提高强化学习中的数据效率和策略回报。
PDF
8 years ago
Prev
Next