BriefGPT.xyz
Ask
alpha
关键词
off-policy imitation learning
搜索结果 - 1
任意经验的模仿:强化学习和模仿学习方法的双重统一
该研究论文旨在通过对强化学习,凸优化和无偏学习方法进行研究,提出了一种新方法,即对偶 RL 方法,可以用于从离线偏置数据中进行无偏学习。
PDF
a year ago
Prev
Next