ICLRJan, 2019
信息瓶颈下的传递和探索
InfoBot: Transfer and Exploration via the Information Bottleneck
Anirudh Goyal, Riashat Islam, Daniel Strouse, Zafarali Ahmed, Matthew Botvinick...
TL;DR提出了一种利用信息瓶颈机制学习判决状态的增值方法,通过对观察的状态进行分析,识别有潜力的子目标进行新的探索,并指导代理经过判决状态和状态空间的新区域。