Jun, 2024

优化自主驾驶的安全性:基于人本主义的 LLM 增强 RLHF 方法

TL;DR通过创新地结合强化学习(Reinforcement Learning from Human Feedback,RLHF)和大语言模型(Large Language Models,LLMs),以提升自动驾驶的安全性。我们利用多个人工控制的代理,如汽车和行人,来模拟真实道路环境,将物理和生理反馈与 LLMs 集成,优化自动驾驶模型的微调过程,并通过在新泽西和纽约市的真实测试平台上收集的数据来验证我们的模型。