Mar, 2024

LORD: 基于大型模型的自动驾驶相反奖励设计

TL;DR通过对不希望出现的语言目标进行建模,将大型预训练模型用作零射击奖励模型,从而提高自主驾驶的安全性和性能。