Mar, 2022

利用深度强化学习进行无限时域达到-避免零和博弈

TL;DR本文主要研究了无限时间视角下的reach-avoid zero-sum博弈问题,提出了基于收缩Bellman backup的价值函数和Conservative Q-Learning方法,求解约束条件下的到达目标集和控制策略的可行解。