Feb, 2024

图上的归纳奖励推理

TL;DR我们研究了基于图的信息传播的奖励推断方法,利用有限人类奖励注释和可用数据构建了奖励传播图,并通过传导推断方法估计未标记数据的奖励,以此改善离线强化学习任务的性能。