Jul, 2023

元值学习:具备学习认知能力的一般性学习框架

TL;DR在多智能体系统中,基于梯度的学习很困难,LOLA 通过在一步优化中不同化来解决这个问题,我们通过扩展 LOLA 的思想并开发出一种完全通用的基于价值的优化方法,核心是一个称为元 - 价值的函数,它在联合策略空间的每个点为每个智能体给出折现未来优化步骤中的目标的总和,我们通过训练神经网络以最小化沿优化轨迹上 TD 误差的方法来近似元 - 价值。