Oct, 2019

问易问题:主动奖励学习的用户友好方法

TL;DR论文探讨了一个基于信息增益的方法来选择机器人询问人类专家的问题,该方法考虑了人类回答问题的能力,并优化了机器人和人类的不确定性之间的权衡以及问题的可重复性和成本控制,仿真实验和用户研究证明该方法不仅产生易于回答的问题,而且最终也导致更快的奖励学习。