利用人类反馈进行逼真交通模拟的强化学习

Sep, 2023

利用人类反馈进行逼真交通模拟的强化学习

Reinforcement Learning with Human Feedback for Realistic Traffic Simulation

Yulong Cao, Boris Ivanovic, Chaowei Xiao, Marco Pavone

TL;DR通过使用强化学习和人类偏好对齐，该研究旨在改善现有交通模型的模拟真实性，解决交通模拟模型的多样性和人类偏好的问题。该研究还提出了用于实现真实性对齐的数据集，并以 nuScenes 数据集的综合评估验证了 TrafficRLHF 框架在生成与人类偏好一致的逼真交通场景方面的能力。

Abstract

In light of the challenges and costs of real-world testing, autonomous vehicle developers often rely on testing in simulation for the creation of reliable systems. A key element of effective simulation is the inc

autonomous vehicles simulation traffic models reinforcement learning realism alignment

发现论文，激发创造

优化自主驾驶的安全性：基于人本主义的 LLM 增强 RLHF 方法

通过创新地结合强化学习（Reinforcement Learning from Human Feedback，RLHF）和大语言模型（Large Language Models，LLMs），以提升自动驾驶的安全性。我们利用多个人工控制的代理，如汽车和行人，来模拟真实道路环境，将物理和生理反馈与 LLMs 集成，优化自动驾驶模型的微调过程，并通过在新泽西和纽约市的真实测试平台上收集的数据来验证我们的模型。

Jun, 2024

闭环中学习真实交通代理

使用闭环模拟学习方法 RTR，在模拟和真实数据集中训练交通仿真策略，以提高交通规则遵守性和仿真的真实性。

Nov, 2023

逆强化学习驱动的面向目标的交通仿真

本研究使用参数共享对抗逆强化学习模型，将交通仿真视为一个逆强化学习问题，并且能够在实际环境中模拟出车辆轨迹，同时还能够恢复反映车辆真实目标的奖励函数，与现有方法相比，在多样化的实际交通环境中表现出卓越的性能和稳健性。

May, 2021

强化学习与人类反馈调查

深入探讨人机交互技术中基于人类反馈的强化学习（RLHF）的基本原理、应用及其研究趋势。

Dec, 2023

TrafficSim：学习模拟真实多智体行为

利用 TrafficSim 模拟真实的自动驾驶系统中的多智能体交通模型，以更多样化的人类演示数据为基础，生成人类社交一致的行驶计划，生成更真实、更多样化的交通场景，可作为训练更好的运动规划员的有效数据增强。

Jan, 2021

如何在强化学习中高效地查询人类反馈？

研究提出了一种有效的轨迹对采样方法，用于探索隐藏的奖励函数，以便在收集人类反馈之前准确地学习，比现有文献更少地需要人类反馈量来学习基于偏好模型的最优策略，可以考虑线性和低秩 MDP

May, 2023

通过强化学习进行交通流随机化的自主车辆决策与控制

我们提出了一种方法，通过随机化基于规则的微观交通流的车辆跟随模型和变道模型的某些参数来随机化周围车辆的驾驶风格和行为，发现在高保真度微观交通流下训练的策略相比其他微观交通流下训练的模型具有更高的成功率和更好的计算奖励。

Mar, 2024

强化学习从人类反馈中的开放问题与基本限制

强化学习来自人类反馈是一种训练 AI 系统与人类目标对齐的技术，但其自身存在的问题、局限性以及相关改进技术的概述，以及提出用于改善社会监督的审计和公开标准的重要性。

Jul, 2023

用于自动驾驶的虚拟到现实强化学习

本文提出了一种虚拟到现实的转换网络，使得在虚拟环境中训练的强化学习驾驶策略可在现实世界中适应，实验证明此方法效果显著且为首次成功的案例。

Apr, 2017

RLHF 揭示：对于 LLMs 的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对 RLHF 的挑战进行了描述，为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。

Apr, 2024