Aug, 2023

通过对序列的偏好查询学习奖励机器

TL;DR用于学习奖励机制的新算法 REMAP,通过引入偏好查询替代成员查询并利用符号观测表、统一和约束求解来缩小奖励机制的搜索空间,具有正确性和终止性保证。