Nov, 2023

通过知识蒸馏和自主规则发现实现高效的开放世界强化学习

TL;DR深度强化学习的关键问题包括忘记和样本效率低下,该研究通过发现并利用空间信息推导任务特定规则,提出了一个通用框架来帮助智能体在新环境中自主学习并增加适应速度。该框架的实现之一是基于规则驱动的深度 Q 学习代理,它在实验中表现出明显更强的抵抗新鲜事物和适应新情况的能力。