Act3D: 用于机器人操作的无限分辨率动作检测变压器
使用 Perceiver Transformer 的行为克隆代理能够有效地学习行动,实验表明其在桌面任务上优于不受结构限制的图像转行动代理和 3D ConvNet 基准。
Sep, 2022
我们结合扩散策略和 3D 场景表示来实现机器人操纵,提出了一种名为 3D Diffuser Actor 的神经策略体系结构,它在给定语言指令的情况下构建视觉场景的 3D 表示,并在此基础上迭代性地对机器人的末端执行器进行 3D 旋转和平移噪声去除。通过实验验证,我们的模型在机器人学习领域取得了显著的性能提升。
Feb, 2024
提出了 LocATe 方法,一种全新的、端到端的 3D-TAL 方法,同时定位和识别 3D 运动中的动作,并用稀疏注意力处理高维输入,能够更好地捕捉动作之间的长期关联,并优于当前最先进的 3D-TAL 方法,在现有的 PKU-MMD 3D-TAL 基准上实现了 93.2%的 mAP,同时提出了一种具有挑战性和更实际的基准数据集 BABEL-TAL-20(BT20)。
Mar, 2022
本文提出了 A3D, 一种自适应 3D 网络,可以在一次训练后适应各种计算约束。通过权衡网络宽度和时空分辨率,生成良好的配置,而无需像网格搜索一样训练多个模型 并且计算成本可以在部署后适应变量约束,例如在边缘设备中。在三个维度上相互训练可以显著提高自适应网络的性能。当采用多路径框架(例如 SlowFast)时,我们的自适应方法可以促进更好的路径折衷,并且在 Kinetics 数据集上的广泛实验证实了该方法的有效性,也验证了性能增益在数据集和任务之间的迁移能力。
Nov, 2020
为了实现机器人的自主技能获取,本文提出了一种基于转化的 3D 视频预测(T3VIP)方法,通过将场景分解为其对象部件并预测其相应的刚性变换,从自身的过去经验中明确地模拟 3D 运动,预测未来的可行结果,并具备自适应超参数优化技术,是首个提供固定摄像头的 RGB-D 视频预测的生成模型。
Sep, 2022
3D Diffusion Policy (DP3) is a novel visual imitation learning approach that incorporates 3D visual representations to teach robots dexterous skills, demonstrating precise control, high success rates, and excellent generalization abilities, while rarely violating safety requirements in real-world robot learning.
Mar, 2024
基于图像的机器人操纵系统,利用多个视角捕捉目标物体,推断深度信息以补充其几何信息,采用几何一致性融合视角,实现精确操纵决策。
Oct, 2023
本文提出利用新颖 Transformer 架构的 LSTM 循环神经网络去捕捉因交互而产生的时空相关性,来解决自动驾驶场景下的 3D 物体检测及其未来运动轨迹预测,经过实验证明,本方法的准确率及效率均优于同类算法。
Aug, 2020
本研究提出 RVT,一种基于多视角变形器的三维物体操作方法,在模拟和实际环境中均表现出色,相对于现有方法,其训练速度快 36 倍,推理速度快 2.3 倍,并仅需每项任务约 10 次演示即可达到良好的效果。
Jun, 2023