朝着具有社会和道德意识的强化学习智能体:利用 LLM 进行奖励设计
我们提出了一个带有自我完善机制的新型大语言模型框架,用于自动化奖励函数设计。通过在多个连续机器人控制任务上的实验,结果表明我们的大语言模型设计的奖励函数能够与手动设计的奖励函数相媲美甚至超越,突显了我们方法的效果和适用性。
Sep, 2023
我们提出了多目标强化主动学习 (Multi-Objective Reinforced Active Learning, MORAL) 方法,通过维护标量化权重的分布,交互式地调整深度强化学习代理向各种偏好的方向发展,从而将社会规范的不同展示组合成帕累托最优策略,并消除了计算多个策略的需要。我们在两种场景中对 MORAL 的有效性进行了实证验证,并将其视为学习奖励的多目标强化学习 (Multi-objective RL) 的一步,弥合了当前奖励学习和机器伦理文献之间的差距。
Dec, 2021
利用大型语言模型优化强化学习的奖励功能,使自动驾驶代理在行为上更加灵活、精准和类人化,探究奖励设计在塑造自动驾驶车辆行为中的重要影响,为更先进、类人化的自动驾驶系统的发展提供了有希望的方向。
May, 2024
本文探讨以自然语言接口为代理奖励函数来简化奖励设计,在强化学习框架下利用大型语言模型对用户目标进行培训,实现智能体与用户目标的对齐,并在 Ultimatum 游戏、矩阵游戏和 DealOrNoDeal 谈判任务中优于通过监督式学习学习的奖励函数训练的 RL 智能体。
Feb, 2023
在没有人类干预的情况下,我们提出了一种通过使用大型语言模型(LLM)来学习奖励的方法,该方法通过迭代的自我对齐过程,最小化 LLM 和学习奖励函数之间的排名不一致性,从而在训练效果和效率方面实现了一致的改善,并且相比于基于突变的方法消耗了更少的 GPT 令牌。
May, 2024
本文提出了一种新颖的方法,即通过利用大型语言模型 (LLMs) 定义奖励参数,从而优化和实现各种机器人任务,并结合实时优化器 MuJoCo MPC,使用户可以交互地创造行为并快速获得结果反馈。作者在一个模拟仿真机器人四足动物和一种机械手进行了 17 个任务的评价,证明了这种方法成功解决了 90% 的任务,并在真实机器人手臂上验证了方法的有效性,包括非握持推动等复杂操作技能。
Jun, 2023
本文展示了一种使用利用现有的 normative supervisor 框架的方法,通过 MORL 技术以平衡非道德目标和避免违规的道德目标,在自主代理中实现安全、道德或合法行为,且不受惩罚强度大小的影响。
Mar, 2022
该文探讨了将道德选择嵌入智能系统的重要性,提出了使用强化学习设计奖励结构以探究道德问题,并在三种社交困境游戏中分析了不同类型的道德如何影响智能体的行为,探讨了这些发现对于智能和混合人工智能社会的发展的影响。
Jan, 2023
提出了一种名为 ELLM(LLM 探索)的方法,它利用来自文本语料库的背景知识来塑造探索,通过利用大规模语言模型预训练,无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向,通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验,证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖,并且在一系列下游任务中通常与或优于性能。
Feb, 2023