LORD: 基于大型模型的自动驾驶相反奖励设计

Mar, 2024

LORD: 基于大型模型的自动驾驶相反奖励设计

LORD: Large Models based Opposite Reward Design for Autonomous Driving

Xin Ye, Feng Tao, Abhirup Mallik, Burhaneddin Yaman, Liu Ren

TL;DR通过对不希望出现的语言目标进行建模，将大型预训练模型用作零射击奖励模型，从而提高自主驾驶的安全性和性能。

Abstract

reinforcement learning (RL) based autonomous driving has emerged as a promising alternative to data-driven imitation learning approaches. However, crafting effective →

reinforcement learning autonomous driving reward functions large pretrained models opposite reward design

发现论文，激发创造

自动驾驶场景下的上下文学习

利用大型语言模型优化强化学习的奖励功能，使自动驾驶代理在行为上更加灵活、精准和类人化，探究奖励设计在塑造自动驾驶车辆行为中的重要影响，为更先进、类人化的自动驾驶系统的发展提供了有希望的方向。

May, 2024

使用大型语言模型生成和演化高速行驶的奖励函数

整合大型语言模型和强化学习的框架提高自动驾驶领域中奖励函数的设计，通过迭代循环的 RL 训练和大型语言模型的反思，生成和优化高速公路场景的奖励函数，实验结果显示该方法相比手工设计的奖励函数能够取得 22% 更高的平均成功率。

Jun, 2024

REvolve: 大型语言模型在自动驾驶中的奖励进化

利用大型语言模型来设计人类对鼓励功能的反馈机制，从而更好地训练自主驾驶系统。

Jun, 2024

LARG，基于语言的自动奖励和目标生成

本研究介绍了一个基于自然语言生成奖励和目标函数的机器人操作自动化训练方法，运用 Goal-conditioned 和 MTRL 技术，使用 Large Language Models，针对机器人操作的可扩展性问题进行了实验验证。

Jun, 2023

自我完善的大型语言模型作为机器人深度强化学习的自动奖励函数设计者

我们提出了一个带有自我完善机制的新型大语言模型框架，用于自动化奖励函数设计。通过在多个连续机器人控制任务上的实验，结果表明我们的大语言模型设计的奖励函数能够与手动设计的奖励函数相媲美甚至超越，突显了我们方法的效果和适用性。

Sep, 2023

自动驾驶的大型语言模型调查

自动驾驶技术是改变交通运输和城市流动性的催化剂，从基于规则的系统过渡到基于数据驱动的策略。该研究论文系统地回顾了大型语言模型在自动驾驶领域的应用，并评估了当前技术进展、主要挑战和未来方向。

Nov, 2023

利用大型语言模型自动化并加快使用奖励机制的强化学习

我们提出了 LARL-RM 算法，利用自动机将高层知识编码到强化学习中，以加速强化学习过程，同时使用大型语言模型通过提示工程来获取高层领域特定知识，避免了需要专家编码自动机的问题，且能够在无需专家指导和监督下进行全闭环强化学习，我们还展示了算法收敛到最优策略的理论保证，并通过两个案例研究实现了 30% 的加速收敛。

Feb, 2024

自主驾驶的大型语言模型：现实世界实验

利用大型语言模型（LLM）的 Talk-to-Drive 框架，通过处理人类的口头指令并结合上下文信息做出自主驾驶决策，实现个性化的安全、高效和舒适，成功率达到 100% 的执行命令，并在现实世界的实验中将不同驾驶员的接管率大幅降低至高达 90.1%，是在真实自主驾驶环境中应用 LLM 的首次实例。

Dec, 2023

通过自对准使用大型语言模型学习机器人技能的奖励

在没有人类干预的情况下，我们提出了一种通过使用大型语言模型（LLM）来学习奖励的方法，该方法通过迭代的自我对齐过程，最小化 LLM 和学习奖励函数之间的排名不一致性，从而在训练效果和效率方面实现了一致的改善，并且相比于基于突变的方法消耗了更少的 GPT 令牌。

May, 2024

像人类驾驶：用大语言模型重新思考自动驾驶

本文探讨使用大型语言模型（LLM）作为自动驾驶系统的潜力，认为传统优化和模块化的自动驾驶系统无法应对复杂情况，提出了理想的自动驾驶系统应具备的推理、解释和记忆三个关键能力，并通过实验证明 LLM 在自动驾驶中具有卓越的推理能力为人类化自动驾驶的发展提供了有价值的思路。

Jul, 2023