Feb, 2024

批量主动学习基于人类偏好的奖励函数

TL;DR通过批次主动的偏好学习方法,本研究开发了一组新的算法,能够有效学习奖励函数并在短时间内生成少量查询,实验结果表明该算法在机器人学习中的多种任务上表现良好。