Nov, 2022

基于偏好的快速适应元强化学习

TL;DR本研究基于元强化学习框架,探究了在人机交互中,通过基于偏好的反馈,而非数值奖励,在少数试验中快速调整策略以适应新任务的机制,并通过信息论技术设计问题序列来最大化人类专家的信息获取效率,实验结果表明其显著优于传统算法。