Nov, 2023

深度强化学习中面向智能体无关行动指导的智能体感知训练

TL;DR通过代理感知但对代理不可知的动作建议 (A7) 框架,在深度强化学习中解决了样本效率低下的问题,并通过使用状态特征的相似性作为征求建议的指标,使用代理模型提取有判别性且普遍适用的状态特征,利用行为克隆训练模型以重用建议,以及引入内在奖励来激励利用专家指导,实验结果表明,A7显著加速了学习过程,并在GridWorld、LunarLander和Atari游戏的六个场景中超过了现有方法。