Aug, 2024

基于下一个令牌预测的上下文模仿学习

TL;DR本研究解决了如何通过上下文信息在真实机器人上实现模仿学习的问题。我们提出了一种创新的因果变换器模型ICRT,该模型能够在不依赖语言数据或奖励函数的情况下,灵活执行新任务。实验表明,ICRT在处理前所未见的任务时显著优于现有的下一令牌预测模型,显示出强大的适应性与泛化能力。