基于权重合并的船队策略学习及其在机器人工具使用中的应用

Oct, 2023

基于权重合并的船队策略学习及其在机器人工具使用中的应用

Fleet Policy Learning via Weight Merging and An Application to Robotic Tool-Use

Lirui Wang, Kaiqing Zhang, Allan Zhou, Max Simchowitz, Russ Tedrake

TL;DR研究通过分布式学习实现机器人舰队在各种环境中获得多样化技能的方法，并介绍了 fleet-merge 方法用于合并参数化的递归神经网络策略，在 Meta-World 环境中有效地合并 50 个任务的策略，并在机器人工具使用基准测试中验证了 fleet-merge 的功效。

Abstract

Fleets of robots ingest massive amounts of streaming data generated by interacting with their environments, far more than those that can be stored or transmitted with ease. At the same time, we hope that teams of robots can co-acquire diverse skills through their experiences in varied settings. How can we enable such fleet-level learning without having to tr

robot fleets distributed learning fleet-merge policies robotic tool-use benchmark

发现论文，激发创造

车队动力总成控制策略的共享学习

通过使用一种简化的群体策略作为知识共享机制，我们提出了一种新颖的框架，用于车队的共享学习，以解决深度强化学习在服务路线分布的车队中学习稳定性问题，从而在燃油经济性等指标上取得明显优势。

Apr, 2024

融合决策 Transformer: 权重平均以形成多任务策略

本篇论文探讨了通过合并不同 MuJoCo 运动问题的决策 Transformer 子集，形成多任务模型（无集中式训练），从而更加灵活地创造通用策略的初步方法，同时提出了合并政策的更优结果可能性，并建议使用共同的预先训练初始化，以及在问题特定微调期间共同训练共享辅助任务，以帮助实现通用智能体的民主化和分布式过程。

Mar, 2023

云边端 IoT 网络中基于联邦强化学习的动态调度任务的协作策略学习

本研究提出了一种动态调度任务的新型协作策略学习框架，该框架使用联邦强化学习并使用云边终端 IoT 网络的层次结构聚合不同边缘的本地策略并取得了很好的效果。

Jul, 2023

Polybot：在接纳变异性的同时，为多个机器人训练一个策略

通过重新使用大型数据集，提出在多个机器人平台上训练单一策略的关键设计决策，通过对视觉和动作空间的对齐以及对内部表示的对齐来解决机器人平台之间的领域差异，验证了该方法在不同机器人上收集的新任务数据中成功率和样本效率的显著提升。

Jul, 2023

Fleet-DAgger：可扩展的人机交互机器人舰队学习

研究了交互式机群学习 (IFL) 中有限人力资源的有效分配问题，提出了一种新的度量 ROHE 以及一种 IFL 算法家族 Fleet-DAgger，并通过实验验证了该算法可以在人力资源有限的情况下实现更高的 ROHE。

Jun, 2022

PoCo: 来自和为异构机器人学习的政策组合

从异构数据中训练通用机器人策略，使用 Policy Composition 方法将不同模态和领域的数据结合起来，学习场景级和任务级的广义操作技能，实现对多任务操作的灵活综合和推理时策略行为的自适应。在模拟和真实世界实验中，该组合策略在不同场景和任务下实现了稳健和灵巧的性能，并优于单个数据源的基线结果。

Feb, 2024

集体机器人分布式异步引导策略搜索强化学习

本文探讨了分布式异步策略学习作为实现机器人具备普适性和提高复杂任务训练效率的手段。实验证明，使用这种方法可以提高机器人对任务的泛化、利用和训练时间效率，从而在视觉门开启任务中取得更好的效果。

Oct, 2016

数据博弈：群体机器人数据收集的博弈论方法

通过协作抽样策略，自主汽车之间的合作数据收集被视为 $n$ 个玩家数学游戏，该策略能最小化信息用于收敛到具有所有自主汽车完整信息的集中式观测策略，并展示在感知数据集中的表现优于贪心抽样

Mar, 2023

来自不同人类监管者的隐式交互式车队学习

本文提出了解决 Interactive Fleet Learning (分布转移) 和 Implicit Behavior Cloning (多模态) 问题的 Implicit Interactive Fleet Learning 方法，并通过模拟实验和物理实验表明其在人类辅助下具有更高的执行成功率和更高的回报。

Jun, 2023

推 GENERALIZED ASSISTIVE 控制的并发策略融合与系统识别

通过将系统辨识与同时策略混合相结合，创建出对参数变化有鲁棒性的泛化策略，提高了协作机器人的效率。

May, 2022