REvolve: 大型语言模型在自动驾驶中的奖励进化
整合大型语言模型和强化学习的框架提高自动驾驶领域中奖励函数的设计,通过迭代循环的 RL 训练和大型语言模型的反思,生成和优化高速公路场景的奖励函数,实验结果显示该方法相比手工设计的奖励函数能够取得 22% 更高的平均成功率。
Jun, 2024
利用大型语言模型优化强化学习的奖励功能,使自动驾驶代理在行为上更加灵活、精准和类人化,探究奖励设计在塑造自动驾驶车辆行为中的重要影响,为更先进、类人化的自动驾驶系统的发展提供了有希望的方向。
May, 2024
我们提出了一个带有自我完善机制的新型大语言模型框架,用于自动化奖励函数设计。通过在多个连续机器人控制任务上的实验,结果表明我们的大语言模型设计的奖励函数能够与手动设计的奖励函数相媲美甚至超越,突显了我们方法的效果和适用性。
Sep, 2023
在没有人类干预的情况下,我们提出了一种通过使用大型语言模型(LLM)来学习奖励的方法,该方法通过迭代的自我对齐过程,最小化 LLM 和学习奖励函数之间的排名不一致性,从而在训练效果和效率方面实现了一致的改善,并且相比于基于突变的方法消耗了更少的 GPT 令牌。
May, 2024
通过利用大型语言模型(LLMs)的语言和推理能力,本研究提出了一个新的框架来增强自动驾驶车辆决策过程。通过在不同场景中进行试验和实时个性化示范,我们展示了利用 LLMs 能够改善驾驶决策、提供个性化驾驶体验并增强自动驾驶的安全和效果。
Oct, 2023
本文提出了一种新颖的方法,即通过利用大型语言模型 (LLMs) 定义奖励参数,从而优化和实现各种机器人任务,并结合实时优化器 MuJoCo MPC,使用户可以交互地创造行为并快速获得结果反馈。作者在一个模拟仿真机器人四足动物和一种机械手进行了 17 个任务的评价,证明了这种方法成功解决了 90% 的任务,并在真实机器人手臂上验证了方法的有效性,包括非握持推动等复杂操作技能。
Jun, 2023
本文探讨使用大型语言模型(LLM)作为自动驾驶系统的潜力,认为传统优化和模块化的自动驾驶系统无法应对复杂情况,提出了理想的自动驾驶系统应具备的推理、解释和记忆三个关键能力,并通过实验证明 LLM 在自动驾驶中具有卓越的推理能力为人类化自动驾驶的发展提供了有价值的思路。
Jul, 2023
通过利用大规模语言模型(LLM)对道德和社会规范的理解,本研究评估了语言模型作为直接奖励信号的能力,并通过与人类反馈对比来展示语言模型的结果。
Jan, 2024
本文探讨以自然语言接口为代理奖励函数来简化奖励设计,在强化学习框架下利用大型语言模型对用户目标进行培训,实现智能体与用户目标的对齐,并在 Ultimatum 游戏、矩阵游戏和 DealOrNoDeal 谈判任务中优于通过监督式学习学习的奖励函数训练的 RL 智能体。
Feb, 2023