Mar, 2019

使用多智能体奖励增强模仿学习模拟人类驾驶行为的涌现特征

TL;DR这篇论文提出了一种称为奖励增强模仿学习(RAIL)的方法,它在多智能体模仿学习框架中集成了奖励增强,并允许设计者以原则性的方式指定先前的知识,这种方法在驾驶场景中得到验证,并在复杂的多智能体设置中展示了单个智能体的局部行动和出现性质的行为方面的性能提高。