BriefGPT.xyz
Jun, 2021
逆强化学习中的可识别性
Identifiability in inverse reinforcement learning
HTML
PDF
Haoyang Cao, Samuel N. Cohen, Lukasz Szpruch
TL;DR
通过使用熵正则化,我们解决了马尔科夫决策问题中的奖励函数的非可辨识性问题,并完全表征给定环境下导致特定策略的奖励函数,同时演示了在不同折扣系数或足够不同的环境下给定奖励的行动演示下未被观察到的奖励可以恢复至常量。此外,我们还提供了在有限视野内对时间同质奖励和独立于行动的奖励进行重建的普遍必要和充分条件。
Abstract
inverse reinforcement learning
attempts to reconstruct the
reward function
in a
markov decision problem
, using observations of agent actio
→