Mar, 2022

透过指引提炼的可教授强化学习

TL;DR本研究提出了一种基于 “可教学” 的决策系统的交互式学习监督范式,能够通过学习外部教师提供的结构化建议,解决复杂任务的学习难度,对拼图、导航和运动等各种任务需求的人工干预也相对较少。