我们探讨了密集跟踪作为一种表征工具,使机器人能够更快、更通用地从示教中学习,并展示了通过密集跟踪生成的稳健机器人策略能够解决复杂的物体排列任务,如形状匹配、堆叠,甚至全路径跟踪任务,如涂胶并粘合物体,这些示教仅需数分钟即可收集。
Aug, 2023
该论文提出了一种基于 Trajectory Autoencoding Planner (TAP) 的规划算法,通过使用低维潜在动作编码和状态条件 VQ-VAE 模型,以及搜索离散的潜在动作来发现高累积奖励可能性的轨迹,并在高维持续行为空间中超越了现有的模型和策略的基线结果。
Aug, 2022
本文提出了一种基于场景图像的深度卷积循环神经网络,可用于从一个初始化的场景图像中预测任务与运动规划中的动作序列。该网络可避免组合复杂性并具有很好的泛化性能,可加速任务与运动规划的运行时间。
Jun, 2020
本文研究如何将深度强化学习和图神经网络应用于无线网络中的电力和信道分配问题,研究结果表明现有结构还不能很好地识别图的结构和特征,并且对于对图产生影响的问题不太适用,但研究还是取得了一些积极进展,比如通过距离编码来增强问题的表示方法。
Jan, 2022
通过自我监督的师生设置,使用大规模无标签、无筛选的真实世界数据,以最小的架构改变改进 Tracking-Any-Point (TAP) 模型,实现了在 TAP-Vid 基准测试中的最新性能,超过先前研究结果很大幅度:例如、TAP-Vid-DAVIS 性能从 61.3% 提高到 66.4%,TAP-Vid-Kinetics 从 57.2% 提高到 61.5%。
Feb, 2024
本文使用增强学习方法和视觉技术在真实环境中完成对复杂物体进行叠放的任务,重点研究了这种方法的优越性和训练问题。
Oct, 2021
该研究提出了一种基于时间注意力的概率人体姿势和形状估计方法(TAPE),通过对一段视频进行编码并使用概率分布输出估计的人体姿势,相比于其他方法在标准基准测试中表现更好。
Apr, 2023
交互抓取从杂乱环境中非常类似于人类灵巧度的问题中,是机器人学习中最久远的问题之一。我们提出了一种新颖的两阶段学习框架 —— 师傅增益策略梯度(TAPG),将强化学习和策略蒸馏相结合。通过训练一位师傅策略以掌握基于物体姿态信息的运动控制,TAPG 能够在基于物体分割的感觉运动策略上实现引导且适应性的学习。我们通过使用面向特定物体分割的 “Segment Anything Model” 从仿真环境零迁移到真实机器人环境。根据人类可理解的提示,我们训练出的策略能够在仿真和现实世界中熟练地从杂乱环境中抓取各种物体。此外,我们展示了对新物体的鲁棒零迁移。我们的实验视频可以在 https://maltemosbach.github.io/grasp_anything 上找到。
Mar, 2024
本文提出了一种利用神经网络和强化学习解决组合优化问题的框架,特别关注旅行推销员问题和背包问题,证明了该方法在不需要太多工程和启发式设计的情况下在二维欧几里得图上取得接近最优结果,并且可以得到具有多达 200 个项目实例的最优解。
Nov, 2016
本文提出一种新型三维装箱问题,利用深度强化学习算法中的 Pointer Network 方法来优化装箱物品的序列,以期在不固定大小容器的场景下,通过最小化表面积来减少容器成本。数值结果显示该方法较启发式方法改进了约 5%。
Aug, 2017