Sep, 2023

利用人类反馈进行逼真交通模拟的强化学习

TL;DR通过使用强化学习和人类偏好对齐,该研究旨在改善现有交通模型的模拟真实性,解决交通模拟模型的多样性和人类偏好的问题。该研究还提出了用于实现真实性对齐的数据集,并以 nuScenes 数据集的综合评估验证了 TrafficRLHF 框架在生成与人类偏好一致的逼真交通场景方面的能力。