Feb, 2024

PoCo: 来自和为异构机器人学习的政策组合

TL;DR从异构数据中训练通用机器人策略,使用 Policy Composition 方法将不同模态和领域的数据结合起来,学习场景级和任务级的广义操作技能,实现对多任务操作的灵活综合和推理时策略行为的自适应。在模拟和真实世界实验中,该组合策略在不同场景和任务下实现了稳健和灵巧的性能,并优于单个数据源的基线结果。