AAAIDec, 2020

通用强化学习中大规模动作空间的精确缩减

TL;DR本论文针对强化学习中的大行为空间问题进行研究,在提出非 MDP 情况下如何使用 action-binarization 来提高 Extreme State Aggregation(ESA)界限的同时,提供一个 logarithmic 规模上限的 binarized ESA 方案。