Aug, 2020

深度强化学习中的信息瓶颈用于动态泛化

TL;DR采用信息论正则化目标和一个退火优化方法来提高强化学习代理的泛化能力,从而在不同领域的任务中实现极端泛化,揭示信息理论和机器学习之间的联系。