Feb, 2020

通过信息瓶颈学习任务驱动的控制策略

TL;DR本文提出了一种基于强化学习的方法,用于合成具有丰富感知模态(例如视觉或深度)的机器人系统的任务驱动控制策略。该方法学会创建一种任务驱动表示来计算控制动作,以实现控制动作仅依赖任务相关信息。实验结果表明,我们的算法产生的任务驱动策略通常比标准策略梯度方法更加鲁棒性。