Oct, 2022

通过 Q 学习解决连续控制问题

TL;DR本文提出了一种将单智能体控制转化为多智能体协作学习的方法 —— 将动作离散化并结合价值分解,从而将 Q-learning 方法应用于高维连续动作空间的情况,能够在学习来自特征或像素的信息的情况下与最先进的连续动作优化技术相匹敌,并在多种连续控制任务中表现出强大的性能。