Jun, 2020

使用时间变分推断学习机器人技能

TL;DR该论文提出了一个机器人选项无监督学习的框架,利用连续潜变量表示选项,然后通过基于时间分解的变分推理来学习控制策略和高层策略,以及演示各种任务的机器人。