PoliFormer: 用 Transformer 扩展 On-Policy 强化学习，实现高超的导航员

Jun, 2024

PoliFormer: 用 Transformer 扩展 On-Policy 强化学习，实现高超的导航员

PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators

Kuo-Hao Zeng, Zichen Zhang, Kiana Ehsani, Rose Hendrix, Jordi Salvador...

TL;DR我们提出了 PoliFormer（Policy Transformer），这是一个使用强化学习进行训练的 RGB 室内导航代理，采用规模化的端到端训练，能够在真实世界中无需适应即可进行泛化，尽管它是纯在模拟环境中训练的。PoliFormer 使用基本的视觉 Transformer 编码器和因果 Transformer 解码器，实现了长期记忆和推理。它通过数亿次的交互在各种环境下进行训练，利用并行化、多机器人卷积进行高效的训练，输出了两个不同任务（LoCoBot 和 Stretch RE-1 机器人）和四个导航基准测试的尖端结果。相比之前的工作，它突破了瓶颈，实现了在 CHORES-S 基准测试的物体目标导航领域的前所未有的 85.5% 成功率，绝对改进幅度为 28.5%。PoliFormer 还可以轻松扩展到多种下游应用，如物体追踪、多物体导航和无需微调的开放词汇导航。

Abstract

We present poliformer (Policy Transformer), an RGB-only indoor navigation agent trained end-to-end with reinforcement learning at scale th

poliformer indoor navigation reinforcement learning vision transformer robot navigation

发现论文，激发创造

图像目标导航的变形金刚

利用生成式 Transformer 模型，通过联合建模图像目标、摄像头观察和机器人过去的动作来预测未来的动作，从而实现对于长时间跨度的图像目标导航任务的稳健的、无需与环境实时交互的目标导向导航策略。

May, 2024

CtrlFormer: 基于 Transformer 学习可转移的状态表示，用于视觉控制

提出了一种称为 CtrlFormer 的控制变压器模型，用于训练在样本利用效率方面表现良好的可转移状态表示，在视觉控制任务方面表现出色，并在 DMControl 基准测试中达到了当前先进方法的最高样本利用效率水平。

Jun, 2022

ActFormer：通过主动查询实现可扩展的协作感知

本研究提出了一种基于 Transformer 的体系结构，旨在处理依靠摄像机协同感知的扩展性问题。该体系结构通过智能地辨别协作者及其相关摄像机的关联性，以学习的空间先验来主动理解视觉特征的相关性，从而提高通信和计算效率，实现多智能体协同三维物体检测的性能改进。

Mar, 2024

AgentFormer: 面向多智能体时空预测的智能体感知 Transformer

论文提出了一个新的 Transformer 模型 AgentFormer，该模型可以联合模拟时间和社交两个维度，用于预测多智能体行为，同时考虑了多智能体的影响以及不确定性。该模型具有良好的性能，并在公共数据集上取得了 state-of-the-art 的结果。

Mar, 2021

EyeFormer：使用 Transformer 引导的强化学习预测个性化扫描路径

通过使用 Transformer 模型和深度强化学习算法，我们提出了 EyeFormer 模型，可以预测个体用户的视觉扫描路径，并在图形用户界面布局优化等方面有广泛应用。

Apr, 2024

控制变压器：基于 PRM 引导的返回条件序列建模的机器人在未知环境中导航

本文提出控制变压器 (Control Transformer) 结合基于采样的概率路图规划器 (Probabilistic Roadmap Planner) 的低层策略，应用于机器人领域的长周期任务，结果表明我们的框架可以仅利用局部信息解决长周期导航任务，实现了零 - shot 的模拟现实转移 (transfer)，并在 Ant、Point、Humanoid 和 Turtlebot3 机器人上验证了该方法。

Nov, 2022

ActionFormer：使用 Transformers 定位行为片段

ActionFormer 是一种基于 Transformer 网络的模型，采用了多尺度特征表示和本地自我注意力机制来识别视频中的动作。它在 THUMOS14 上取得了 71.0％ mAP，在 ActivityNet 1.3 和 EPIC-Kitchens 100 中也表现出色。

Feb, 2022

超越 A*：通过搜索动力学引导改进的 Transformer 规划

该论文介绍了一种名为 Searchformer 的 Transformer 模型，经过 fine-tuning 和专家迭代后，能够在解决 Sokoban 难题时以优化的方式使用较少的搜索步骤，同时比传统的符号规划器 $A^*$ 搜索使用更小的模型规模和训练数据集。

Feb, 2024

使用跨模态转换器端到端学习视觉引导下的四足机器人运动

我们提出了一种使用基于 Transformer 的模型从配 proprioceptive 信息和高维度深度传感器输入中学习的强化学习（RL）来解决四足动物行走任务的方法。

Jul, 2021

VER：基于策略的强化学习扩展导致在具身重组中出现导航

Variable Experience Rollout (VER) is a reinforcement learning technique that scales on-policy learning in heterogeneous environments to many GPUs, leading to faster navigation and mobile manipulation tasks with surprising out-of-distribution generalization.

Oct, 2022