THE COLOSSEUM: 机器人操作泛化评估基准

Feb, 2024

THE COLOSSEUM: 机器人操作泛化评估基准

THE COLOSSEUM: A Benchmark for Evaluating Generalization for Robotic Manipulation

Wilbert Pumacay, Ishika Singh, Jiafei Duan, Ranjay Krishna, Jesse Thomason...

TL;DR为了实现有效的大规模、实际应用的机器人，我们必须评估我们的机器人策略对环境条件变化的适应能力。我们介绍了一个新的模拟基准测试COLOSSEUM，它包括20个不同的操作任务，能够系统地评估模型在12个环境扰动轴上的性能。我们比较了4种最先进的操作模型，揭示了它们在这些环境扰动因素下的成功率下降了30-50%。当多个扰动同时应用时，成功率下降≥75%。我们发现改变干扰对象的数量、目标对象的颜色或照明条件是最大程度降低模型性能的扰动因素。为了验证我们结果的生态效度，我们证明了我们在模拟中的结果与真实实验中的类似扰动相关（R^2 = 0.614）。我们公开了COLOSSEUM的使用代码，并发布了用于复制真实世界扰动的三维打印对象的代码。最终，我们希望THE COLOSSEUM能成为一个评估操作泛化能力的基准，以找到能系统地改进操作泛化能力的建模决策。

Abstract

To realize effective large-scale, real-world robotic applications, we must evaluate how well our robot policies adapt to changes in environmental conditions. Unfortunately, a majority of studies evaluate robot performance in environments closely resembling or even identical to the trai