Oct, 2023

强化学习中的主动教师选择

TL;DR隐藏效用强盗(HUB)框架及主动教师选择算法(ATS)在多教师情境下学习准确奖励模型方面表现出色,为活跃教师选择提供了有力支持,并促进了对于强化学习的未来研究。