AAAIJan, 2023

变量动作环境的 Transformer 作为策略

TL;DR研究了在变量行动环境中,使用 Transformer 编码器进行策略设计的有效性,证明了使用 PPO 算法用于 Gym-$\mu$RTS 环境中训练代理的可行性,并与使用 GridNet 架构的下一个最佳 RL 代理相比,使用了一半的计算资源,最终的代理能够实现更高的回报。