BriefGPT.xyz
Ask
alpha
关键词
subjective model
搜索结果 - 1
一种鲁棒逆强化学习的贝叶斯方法
我们提出了一种贝叶斯方法来进行离线模型基于的逆向强化学习 (IRL)。该方法通过同时估计专家的奖励函数和对环境动态的主观模型,与现有的离线模型基于 IRL 方法有所不同。我们利用一类先验分布,参数化了专家对环境的模型准确性,以此开发出高维环
→
PDF
10 months ago
Prev
Next