Feb, 2024

关于基于语言条件技能发现的互信息思考与模仿学习

TL;DR通过数学方法评估语言条件化策略学习框架中技能与语言指令之间的关系,提出了一种称为语言条件化技能发现(LCSD)的端到端模仿学习方法,通过最大化语言和技能之间的互信息,在无监督的情况下学习离散潜在技能并利用技能序列重构高级语义指令,通过在BabyAI、LORel和CALVIN上进行大量实验,展示了我们方法在语言条件化的机器人导航和操作任务中的优越性,包括对未知任务的增强泛化能力、改进的技能可解释性和显著提高的任务完成成功率。