Jun, 2024

PoliFormer: 用 Transformer 扩展 On-Policy 强化学习,实现高超的导航员

TL;DR我们提出了 PoliFormer(Policy Transformer),这是一个使用强化学习进行训练的 RGB 室内导航代理,采用规模化的端到端训练,能够在真实世界中无需适应即可进行泛化,尽管它是纯在模拟环境中训练的。PoliFormer 使用基本的视觉 Transformer 编码器和因果 Transformer 解码器,实现了长期记忆和推理。它通过数亿次的交互在各种环境下进行训练,利用并行化、多机器人卷积进行高效的训练,输出了两个不同任务(LoCoBot 和 Stretch RE-1 机器人)和四个导航基准测试的尖端结果。相比之前的工作,它突破了瓶颈,实现了在 CHORES-S 基准测试的物体目标导航领域的前所未有的 85.5% 成功率,绝对改进幅度为 28.5%。PoliFormer 还可以轻松扩展到多种下游应用,如物体追踪、多物体导航和无需微调的开放词汇导航。