BriefGPT.xyz
Ask
alpha
关键词
irl
搜索结果 - 2
逆强化学习中悲观主义的优点
通过使用离线 RL 算法作为 IRL 过程的一部分,我们能够更有效地找到与专家表现相匹配的策略。
PDF
5 months ago
朝着计算高效的逆强化学习方向进发:通过奖励塑形
逆向强化学习是具有计算挑战性的,常见方法需要解决多个强化学习子问题。本研究激励使用基于潜力的奖励塑造来减轻每个强化学习子问题的计算负担,并希望能激发未来对计算效率高的逆向强化学习的发展。
PDF
7 months ago
Prev
Next