Mar, 2024

一种用于基于偏好奖励学习的泛化获取函数

TL;DR优化查询方法在学习奖励函数上的表现优于信息增益方法。