Mar, 2023

多个教师的主动奖励学习

TL;DR利用多种来源的人类反馈信息可提高强化学习算法的效率和准确性,通过算法来评估不同来源反馈信息的价值,可以有效地选择最具价值的教师进行反馈,从而提高人类价值和人工智能行为的一致性。