使用自由形式的自然语言约束和预训练语言模型的安全强化学习

Jan, 2024

使用自由形式的自然语言约束和预训练语言模型的安全强化学习

Safe Reinforcement Learning with Free-form Natural Language Constraints and Pre-Trained Language Models

Xingzhou Lou, Junge Zhang, Ziyan Wang, Kaiqi Huang, Yali Du

TL;DR利用预训练语言模型的先验知识，我们的方法可以在遵守给定约束条件的情况下，理解复杂约束并学习安全策略，而无需任何阶段的真实成本。

Abstract

safe reinforcement learning (RL) agents accomplish given tasks while adhering to specific constraints. Employing constraints expressed via easily-understandable human language offers considerable potential for real-world applications due to its accessibility and non-reliance on domain

safe reinforcement learning natural language constraints pre-trained language models safe policy learning ground-truth cost

发现论文，激发创造

自然语言约束下的安全多智能体强化学习

我们提出了一种名为 SMALL 的新方法，该方法利用经过微调的语言模型来解释和处理自由形式的文本约束，将其转化为捕捉禁止状态和行为本质的语义嵌入，并将其整合到多智能体策略学习过程中，使智能体能够学习最小化约束违规和优化奖励的策略。在多个环境中进行的实证评估显示，SMALL 在理解和执行自然语言约束方面具有显著的效果，实现了可比较的奖励和显著减少的约束违规。

May, 2024

从人类偏好中微调语言模型

本文介绍了如何利用奖励学习将强化学习应用于自然语言任务中，旨在建立适用于现实世界任务的奖励模型。我们将奖励学习应用于四个自然语言任务（文本连续生成、摘要），取得了不错的结果，但模型可能会利用人类评估者的简单启发式规则。

Sep, 2019

自然语言强化学习

强化学习和自然语言表示相结合的自然语言强化学习 (NLRL) 框架在解决样本效率低、解释性差、稀疏监督信号等问题方面表现出了显著的能力。通过在自然语言空间重新定义强化学习的概念和原则，以及结合大型语言模型的先进技术如 GPT-4 的实现方式，NLRL 在标签驱动的 MDPs 上的初步实验证明了该框架的有效性、效率以及可解释性。

Feb, 2024

利用大型语言模型指导强化学习的预训练

提出了一种名为 ELLM（LLM 探索）的方法，它利用来自文本语料库的背景知识来塑造探索，通过利用大规模语言模型预训练，无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向，通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验，证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖，并且在一系列下游任务中通常与或优于性能。

Feb, 2023

基于已知约束函数的多能源管理系统安全强化学习

本文提出了两种新的安全强化学习方法，即 SafeFallback 和 GiveSafe，其安全约束公式与 RL 公式分离，可提供硬约束满足保证，且无需解决数学问题，从而降低计算能力要求，并具有更灵活的约束公式表述。方法可应用于超出 RL 的任何策略，同时提供硬约束保证，并在模拟多能源系统案例研究中验证了方法的有效性。

Jul, 2022

安全芯片插入：强制 LLM 驱动的机器人代理遵守限制

利用大型语言模型（LLM）所提供的世界知识和普遍推理能力，我们提出了一种基于线性时态逻辑（LTL）的可查询安全约束模块，用于在协作环境中部署 LLM 代理，并通过自然语言到时态约束编码、安全违规推理、不安全行为修剪等功能，实现了显式指示禁止行为、评估机器人对限制的理解，并确保其合规性。实验证明我们的系统可以严格遵守安全约束并能很好地适用于复杂的安全约束，具备实际应用潜力。

Sep, 2023

强化学习是否适用于自然语言处理：自然语言策略优化的基准、基线和构件

本论文探讨了如何将预先训练的大型语言模型与人类偏好相对齐，提出了一个基于强化学习的模型优化库以及一套基于奖励函数的人类偏好的语言生成任务评估基准，并展示了所提出的自然语言策略优化算法相比于以往的策略梯度方法在具有更好的稳定性和性能。

Oct, 2022

反向受限强化学习

研究使用强化学习智能体从行为演示中学习约束以及将其迁移到具有不同形态和奖励功能的新智能体的方法，建立了能够在高维度完全无模型的情况下学习任意 Markovian 约束的框架，并且该方法与之前的工作相比，在离散设置、特定类型约束和环境转移动力学等方面表现更好。

Nov, 2020

离线强化学习能助力自然语言理解吗？

本论文旨在探究离线强化学习和语言建模之间的潜在关系，通过使用 Transformer 模型对不同的离线强化学习任务进行预训练，并在各种与语言相关的任务上进行评估，结果表明，与使用语言建模的模型相比，我们的 RL 预训练模型具有接近的性能，从而验证了这两种模态之间存在着共同的有用特征，进一步探索了如马尔可夫性和 RL 轨迹的顺序性等因素的潜在关系。

Sep, 2022

利用自然语言先验提升基于强化学习的图像标注

使用 n-gram 语言先验约束动作空间的强化学习方法在图像字幕生成任务上取得了更好的可读性和收敛速度，同时解决了由精度优化引起的偏见和稳定性问题。

Sep, 2018