BriefGPT.xyz
Ask
alpha
关键词
no-reward demonstrations
搜索结果 - 1
ICML
基于后继特征与逆时序差分学习的示范增强学习 (PsiPhi-Learning)
该研究探讨了如何利用没有奖励标签的演示样本进行强化学习,提出了一种基于继承特征的多任务反向强化学习算法,证明了该算法在零样本迁移方面的有效性和性能上界,并且展示了在几种应用领域的具体应用。
PDF
3 years ago
Prev
Next