Jun, 2024

通过正则化逆强化学习实现奖励可转移性

TL;DR逆强化学习旨在从专家示范中推断出奖励,但奖励与最优策略不唯一,本文提出主角度作为衡量转移规律相似性和差异性的更精细度量,建立了两个关键结果:1)当学习来自至少两个转移规律明显不同的专家时,对任何转移规律的可转移性提供了足够条件;2)当从单个专家学习时,对转移规律的局部变化的可转移性提供了足够条件,并提供了概率近似正确(PAC)算法和端到端分析,用于从多个专家的示范中学习可转移的奖励。