Jun, 2020

通过任务时间逻辑和深度强化学习实现系统化概括

TL;DR介绍了一种将深度强化学习与时间逻辑相结合的神经符号代理,以实现形式化规定指令的系统性零射 (就是指未曾见过的情况)。研究证明,卷积层的架构在泛化新指令时发挥了关键作用,并证明通过学习少量训练样例,可以从抽象操作符中实现系统化的学习。