朝着具有社会和道德意识的强化学习智能体：利用 LLM 进行奖励设计

Jan, 2024

朝着具有社会和道德意识的强化学习智能体：利用 LLM 进行奖励设计

Towards Socially and Morally Aware RL agent: Reward Design With LLM

Zhaoyue Wang

TL;DR通过利用大规模语言模型（LLM）对道德和社会规范的理解，本研究评估了语言模型作为直接奖励信号的能力，并通过与人类反馈对比来展示语言模型的结果。

Abstract

When we design and deploy an reinforcement learning (RL) agent, reward functions motivates agents to achieve an objective. An incorrect or incomplete specification of the objective can result in behavior that does not align with →

reinforcement learning reward functions objective specification human values large language models

发现论文，激发创造

自我完善的大型语言模型作为机器人深度强化学习的自动奖励函数设计者

我们提出了一个带有自我完善机制的新型大语言模型框架，用于自动化奖励函数设计。通过在多个连续机器人控制任务上的实验，结果表明我们的大语言模型设计的奖励函数能够与手动设计的奖励函数相媲美甚至超越，突显了我们方法的效果和适用性。

Sep, 2023

MORAL：通过多目标强化主动学习将人工智能与人类规范对齐

我们提出了多目标强化主动学习 (Multi-Objective Reinforced Active Learning, MORAL) 方法，通过维护标量化权重的分布，交互式地调整深度强化学习代理向各种偏好的方向发展，从而将社会规范的不同展示组合成帕累托最优策略，并消除了计算多个策略的需要。我们在两种场景中对 MORAL 的有效性进行了实证验证，并将其视为学习奖励的多目标强化学习 (Multi-objective RL) 的一步，弥合了当前奖励学习和机器伦理文献之间的差距。

Dec, 2021

自动驾驶场景下的上下文学习

利用大型语言模型优化强化学习的奖励功能，使自动驾驶代理在行为上更加灵活、精准和类人化，探究奖励设计在塑造自动驾驶车辆行为中的重要影响，为更先进、类人化的自动驾驶系统的发展提供了有希望的方向。

May, 2024

使用语言模型进行奖励设计

本文探讨以自然语言接口为代理奖励函数来简化奖励设计，在强化学习框架下利用大型语言模型对用户目标进行培训，实现智能体与用户目标的对齐，并在 Ultimatum 游戏、矩阵游戏和 DealOrNoDeal 谈判任务中优于通过监督式学习学习的奖励函数训练的 RL 智能体。

Feb, 2023

通过自对准使用大型语言模型学习机器人技能的奖励

在没有人类干预的情况下，我们提出了一种通过使用大型语言模型（LLM）来学习奖励的方法，该方法通过迭代的自我对齐过程，最小化 LLM 和学习奖励函数之间的排名不一致性，从而在训练效果和效率方面实现了一致的改善，并且相比于基于突变的方法消耗了更少的 GPT 令牌。

May, 2024

机器技能综合的语言到奖励转换

本文提出了一种新颖的方法，即通过利用大型语言模型 (LLMs) 定义奖励参数，从而优化和实现各种机器人任务，并结合实时优化器 MuJoCo MPC，使用户可以交互地创造行为并快速获得结果反馈。作者在一个模拟仿真机器人四足动物和一种机械手进行了 17 个任务的评价，证明了这种方法成功解决了 90% 的任务，并在真实机器人手臂上验证了方法的有效性，包括非握持推动等复杂操作技能。

Jun, 2023

可证明符合性引导的强化学习

本文展示了一种使用利用现有的 normative supervisor 框架的方法，通过 MORL 技术以平衡非道德目标和避免违规的道德目标，在自主代理中实现安全、道德或合法行为，且不受惩罚强度大小的影响。

Mar, 2022

使用多智能体强化学习对社会困境中的道德选择建模

该文探讨了将道德选择嵌入智能系统的重要性，提出了使用强化学习设计奖励结构以探究道德问题，并在三种社交困境游戏中分析了不同类型的道德如何影响智能体的行为，探讨了这些发现对于智能和混合人工智能社会的发展的影响。

Jan, 2023

超越人类偏好：通过 LLMs 探索强化学习轨迹的评估与改进

基于偏好的强化学习利用大型语言模型生成自动偏好数据，并通过重构奖励函数来优化强化学习训练，在复杂环境中加速收敛并提高效果。

Jun, 2024

利用大型语言模型指导强化学习的预训练

提出了一种名为 ELLM（LLM 探索）的方法，它利用来自文本语料库的背景知识来塑造探索，通过利用大规模语言模型预训练，无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向，通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验，证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖，并且在一系列下游任务中通常与或优于性能。

Feb, 2023