Feb, 2024

增强强化学习智能体与本地指导

TL;DR本文研究如何将本地指南政策整合到强化学习代理系统中,提出了基于嘈杂策略切换的算法,并通过适当的近似策略评估方案,将本地指南引导向更好的行动,从而改善强化学习算法在安全关键系统等领域的性能。