ICMLJun, 2012

部分观测环境下模型参数的学徒学习

TL;DR通过推断专家演示背后的行动选择过程,学习具有一定不确定性的部分可观测环境中的任务,可以更准确地估计 POMDP 参数并从短暂演示中获得更好的策略,与仅从环境反应学习的方法相比更为有效。