ICLRJan, 2019

信息瓶颈下的传递和探索

TL;DR提出了一种利用信息瓶颈机制学习判决状态的增值方法,通过对观察的状态进行分析,识别有潜力的子目标进行新的探索,并指导代理经过判决状态和状态空间的新区域。