Aug, 2024

重新混合:大规模模仿学习的数据混合优化

TL;DR本研究解决了机器人基础模型预训练中数据选择的重要性问题,提出了一种新方法Re-Mix,通过分布稳健优化(DRO)来最大化各个下游领域的最差性能。实验结果表明,Re-Mix学习到的领域权重相比统一权重和人类选择的权重在性能上分别提升了38%和32%。