LORD: 基于大型模型的自动驾驶相反奖励设计
利用大型语言模型优化强化学习的奖励功能,使自动驾驶代理在行为上更加灵活、精准和类人化,探究奖励设计在塑造自动驾驶车辆行为中的重要影响,为更先进、类人化的自动驾驶系统的发展提供了有希望的方向。
May, 2024
整合大型语言模型和强化学习的框架提高自动驾驶领域中奖励函数的设计,通过迭代循环的 RL 训练和大型语言模型的反思,生成和优化高速公路场景的奖励函数,实验结果显示该方法相比手工设计的奖励函数能够取得 22% 更高的平均成功率。
Jun, 2024
本研究介绍了一个基于自然语言生成奖励和目标函数的机器人操作自动化训练方法,运用 Goal-conditioned 和 MTRL 技术,使用 Large Language Models,针对机器人操作的可扩展性问题进行了实验验证。
Jun, 2023
我们提出了一个带有自我完善机制的新型大语言模型框架,用于自动化奖励函数设计。通过在多个连续机器人控制任务上的实验,结果表明我们的大语言模型设计的奖励函数能够与手动设计的奖励函数相媲美甚至超越,突显了我们方法的效果和适用性。
Sep, 2023
自动驾驶技术是改变交通运输和城市流动性的催化剂,从基于规则的系统过渡到基于数据驱动的策略。该研究论文系统地回顾了大型语言模型在自动驾驶领域的应用,并评估了当前技术进展、主要挑战和未来方向。
Nov, 2023
我们提出了 LARL-RM 算法,利用自动机将高层知识编码到强化学习中,以加速强化学习过程,同时使用大型语言模型通过提示工程来获取高层领域特定知识,避免了需要专家编码自动机的问题,且能够在无需专家指导和监督下进行全闭环强化学习,我们还展示了算法收敛到最优策略的理论保证,并通过两个案例研究实现了 30% 的加速收敛。
Feb, 2024
利用大型语言模型(LLM)的 Talk-to-Drive 框架,通过处理人类的口头指令并结合上下文信息做出自主驾驶决策,实现个性化的安全、高效和舒适,成功率达到 100% 的执行命令,并在现实世界的实验中将不同驾驶员的接管率大幅降低至高达 90.1%,是在真实自主驾驶环境中应用 LLM 的首次实例。
Dec, 2023
在没有人类干预的情况下,我们提出了一种通过使用大型语言模型(LLM)来学习奖励的方法,该方法通过迭代的自我对齐过程,最小化 LLM 和学习奖励函数之间的排名不一致性,从而在训练效果和效率方面实现了一致的改善,并且相比于基于突变的方法消耗了更少的 GPT 令牌。
May, 2024
本文探讨使用大型语言模型(LLM)作为自动驾驶系统的潜力,认为传统优化和模块化的自动驾驶系统无法应对复杂情况,提出了理想的自动驾驶系统应具备的推理、解释和记忆三个关键能力,并通过实验证明 LLM 在自动驾驶中具有卓越的推理能力为人类化自动驾驶的发展提供了有价值的思路。
Jul, 2023