BriefGPT.xyz
Ask
alpha
关键词
suboptimal and heterogeneous demonstrations
搜索结果 - 1
通过估计演示者的专业知识进行逆强化学习
使用不完美和异构演示在模仿学习中存在相当大的挑战,本文介绍了一种名为 IRLEED 的新框架,通过估计演示者的专业水准,克服了现有逆强化学习算法中对不完善演示的缺陷,并结合最大熵逆强化学习框架从多样的不完善演示中高效地得出最优策略。通过在线
→
PDF
5 months ago
Prev
Next