优化自主驾驶的安全性：基于人本主义的 LLM 增强 RLHF 方法

Jun, 2024

优化自主驾驶的安全性：基于人本主义的 LLM 增强 RLHF 方法

Optimizing Autonomous Driving for Safety: A Human-Centric Approach with LLM-Enhanced RLHF

Yuan Sun, Navid Salami Pargoo, Peter J. Jin, Jorge Ortiz

TL;DR通过创新地结合强化学习（Reinforcement Learning from Human Feedback，RLHF）和大语言模型（Large Language Models，LLMs），以提升自动驾驶的安全性。我们利用多个人工控制的代理，如汽车和行人，来模拟真实道路环境，将物理和生理反馈与 LLMs 集成，优化自动驾驶模型的微调过程，并通过在新泽西和纽约市的真实测试平台上收集的数据来验证我们的模型。

Abstract

reinforcement learning from human feedback (RLHF) is popular in large language models (LLMs), whereas traditional reinforcement learning (

reinforcement learning human feedback large language models autonomous driving safety

发现论文，激发创造

利用人类反馈进行逼真交通模拟的强化学习

通过使用强化学习和人类偏好对齐，该研究旨在改善现有交通模型的模拟真实性，解决交通模拟模型的多样性和人类偏好的问题。该研究还提出了用于实现真实性对齐的数据集，并以 nuScenes 数据集的综合评估验证了 TrafficRLHF 框架在生成与人类偏好一致的逼真交通场景方面的能力。

Sep, 2023

强化学习与人类反馈调查

深入探讨人机交互技术中基于人类反馈的强化学习（RLHF）的基本原理、应用及其研究趋势。

Dec, 2023

Safe RLHF: 安全的强化学习从人类反馈中

利用 Safe Reinforcement Learning from Human Feedback（Safe RLHF）算法，通过训练单独的奖励和成本模型，实现了对大型语言模型（LLMs）在帮助性和无害性上进行人类价值调整，以最大化奖励函数并满足成本约束条件；通过实验证明与现有的值对齐算法相比，Safe RLHF 在减轻有害回应的能力和提高模型性能方面更为优越。

Oct, 2023

RLHF 揭示：对于 LLMs 的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对 RLHF 的挑战进行了描述，为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。

Apr, 2024

自动驾驶场景下的上下文学习

利用大型语言模型优化强化学习的奖励功能，使自动驾驶代理在行为上更加灵活、精准和类人化，探究奖励设计在塑造自动驾驶车辆行为中的重要影响，为更先进、类人化的自动驾驶系统的发展提供了有希望的方向。

May, 2024

强化学习从人类反馈中的开放问题与基本限制

强化学习来自人类反馈是一种训练 AI 系统与人类目标对齐的技术，但其自身存在的问题、局限性以及相关改进技术的概述，以及提出用于改善社会监督的审计和公开标准的重要性。

Jul, 2023

利用大型语言模型的反馈加速机器人操控的强化学习

通过利用大型语言模型的及时反馈，Lafite-RL（语言代理反馈互动式强化学习）框架使强化学习智能体能够有效地学习机器人任务，实验结果表明，Lafite-RL 智能体在自然语言的简单提示设计下，通过大型语言模型的引导在学习效率和成功率方面优于基准模型，凸显了大型语言模型所提供的奖励的功效。

Nov, 2023

奖励微调以提高更快和更准确的无监督目标发现

通过利用人类反馈进行强化学习，无监督对象发现的准确性和训练速度得到了显著提高。

Oct, 2023

如何在强化学习中高效地查询人类反馈？

研究提出了一种有效的轨迹对采样方法，用于探索隐藏的奖励函数，以便在收集人类反馈之前准确地学习，比现有文献更少地需要人类反馈量来学习基于偏好模型的最优策略，可以考虑线性和低秩 MDP

May, 2023

多轮强化学习从人类偏好反馈中学习

本研究通过发展新的强化学习方法，解决了基于喜好反馈的多轮对话中规划和多轮互动问题，通过实验证明该算法在教育对话环境中超越了基线模型，同时在含有明确奖励的环境中也能达到基于奖励强化学习模型的性能

May, 2024