Feb, 2025

使通用策略普适化

TL;DR本研究解决了开发通用智能体以处理多种顺序决策任务的挑战。我们提出了一种基于扩散的规划者和逆动力学模型的两阶段通用策略框架,允许智能体在共享观察空间的情况下,适应各自不同的行动空间。我们的实验结果表明,使用来自不同智能体的联合数据集进行训练,可以显著提高任务完成精度,最高改善幅度达42.20%。