Feb, 2022

从演示中学习行为软约束

TL;DR本研究提出了一种新的逆强化学习方法,用于学习马尔可夫决策过程模型中人类在复杂环境中制定决策时的约束和偏好,从而在 AI 与人类的团队中更好的模拟人类行为和提高决策效率。