Jan, 2022

注意力选项评论家

TL;DR本文引入基于注意力机制的扩展方法到 option-critic 架构中,以实现带状态抽象的多样性 options 学习,有效解决了 option-critic 中出现的选项主导和频繁切换的问题,并在转移学习任务中展示出更高的效率,可解释性和重复利用性。