BriefGPT.xyz
Ask
alpha
关键词
transition laws
搜索结果 - 1
通过正则化逆强化学习实现奖励可转移性
逆强化学习旨在从专家示范中推断出奖励,但奖励与最优策略不唯一,本文提出主角度作为衡量转移规律相似性和差异性的更精细度量,建立了两个关键结果:1)当学习来自至少两个转移规律明显不同的专家时,对任何转移规律的可转移性提供了足够条件;2)当从单个
→
PDF
a month ago
Prev
Next