Feb, 2023

通过排除实现多样性 (DTE): 基于价值分解的强化学习领域识别

TL;DR通过引入新的学习规则,提出了一种适用于多个具有不同奖励策略的任务的强化学习算法,其代理体系结构包含多个子策略,可以逃脱陷入局部最优策略的困境,克服了现有算法的局限性。