Oct, 2022

相对行为属性:填补符号目标规范和从人类偏好中学习奖励之间的差距

TL;DR利用相对行为属性的概念,可以从行为片段中优化智能体的行为表现,并以远少于基线方法的反馈次数,实现非专家用户对智能体行为的偏好指定。