Oct, 2023

跨时序课程设计用于 Transformer 代理

TL;DR我们提出了一种新的算法,跨迭代课程(CEC),以提高 Transformer 智能体的学习效率和泛化能力。CEC 的核心是将跨迭代经验放入 Transformer 的上下文中,形成课程的基础。通过顺序地构建在线学习试验和混合质量演示,CEC 构建了涵盖了跨迭代学习进展和熟练度提升的课程。此种协同与 Transformer 模型强大的模式识别能力相结合,提供了强大的跨迭代注意机制。CEC 的有效性在两个典型场景下得到了证明:一个涉及离散控制的多任务强化学习,例如在 DeepMind Lab 中,课程捕捉了个体和逐渐复杂环境中的学习进展;另一个涉及连续控制的混合质量数据的模仿学习,例如在 RoboMimic 中,课程捕捉了演示者专业技能的提高。在所有情况下,CEC 生成的策略表现出优秀的性能和强大的泛化能力。该代码已在此网址开源,以促进对 Transformer 智能体学习的研究。