自然语言强化学习

Feb, 2024

Natural Language Reinforcement Learning

Xidong Feng, Ziyu Wan, Mengyue Yang, Ziyan Wang, Girish A. Koushiks...

TL;DR强化学习和自然语言表示相结合的自然语言强化学习 (NLRL) 框架在解决样本效率低、解释性差、稀疏监督信号等问题方面表现出了显著的能力。通过在自然语言空间重新定义强化学习的概念和原则，以及结合大型语言模型的先进技术如 GPT-4 的实现方式，NLRL 在标签驱动的 MDPs 上的初步实验证明了该框架的有效性、效率以及可解释性。

Abstract

reinforcement learning (RL) has shown remarkable abilities in learning policies for decision-making tasks. However, RL is often hindered by issues such as low sample efficiency, lack of →

reinforcement learning natural language reinforcement learning interpretability sample efficiency large language models

发现论文，激发创造

基于自然语言启发的强化学习综述

提出了将自然语言理解与强化学习紧密结合的想法，并对现有技术及未来研究方向进行了调研。

Jun, 2019

强化学习是否适用于自然语言处理：自然语言策略优化的基准、基线和构件

本论文探讨了如何将预先训练的大型语言模型与人类偏好相对齐，提出了一个基于强化学习的模型优化库以及一套基于奖励函数的人类偏好的语言生成任务评估基准，并展示了所提出的自然语言策略优化算法相比于以往的策略梯度方法在具有更好的稳定性和性能。

Oct, 2022

神经逻辑强化学习

本文提出了一种名为神经逻辑强化学习（NLRL）的新算法，基于策略梯度方法和可微分归纳逻辑编程，通过一阶逻辑来表示强化学习中的策略，解决了深度神经网络难以解释和学习泛化能力低的问题。实验表明，该算法可以在不同的环境下归纳出解释性强且性能接近最优的策略。

Apr, 2019

内部 - 外显任务语言发展与翻译驱动的自然语言指导下的强化学习

采用内部 - 外部模式的自然语言控制强化学习方法使用任务语言与谓词表示来学习多个断言以模拟对象关系，并将翻译器用于自然语言到任务语言的转换，有效地提高 13.4% 的成功率和适应性，并成为有效的任务抽象形式，与层次强化学习相容。

Feb, 2023

基于强化学习的不确定性下自然语言生成规划

本研究提出了一种新的基于统计规划的自然语言生成模型，它能够在存在噪声反馈的情况下（例如用户和实现器的当前生成上下文），有效地解决常见的自然语言生成问题，包括信息展示、语句长度和信息传递量等方面的折衷问题。我们采用强化学习方法训练该模型，并将其性能与先前工作中的基准性能进行了比较，结果表明，该模型的性能明显优于所有基线模型。

Jun, 2016

自然语言处理中的强化学习综述及在医疗保健领域的应用

本文综述了强化学习在自然语言处理领域的关键技术、挑战、以及在医疗保健中的应用，包括对话系统、机器翻译模型、问答系统、文本摘要和信息提取，并介绍了 RL-NLP 系统中的伦理考虑和偏差。

Oct, 2023

具备自然语言目标的逆强化学习

本文提出了一种新颖的对抗式逆强化学习算法，使用条件化语言政策和奖励函数，以及使用变分目标生成器提高学习策略和奖励函数的泛化性，从而使自然语言变得可用于指导智能体任务的目标，获得了非常好的性能表现。

Aug, 2020

自然语言引导的强化学习探索

本文介绍了一种使用自然语言帮助强化学习泛化至未知环境技术的方法，使用编码器 - 解码器网络来学习自然语言行为描述与状态 - 动作信息之间的关联，并使用改进的策略塑造算法来指导智能体探索，从而提高其在未知环境中的学习能力。通过对经典游戏 Frogger 的评价，表明我们的改进策略形态算法在优化学习上优于 Q-Learning 算法和基线策略形态算法。

Jul, 2017

神经机器翻译的强化学习研究

本文进行了一项系统性研究，比较了训练 NMT 模型的几个重要因素（例如基线奖励，奖励塑造）在强化学习中的作用，并提出了一种新的方法来利用强化学习进一步提高用单语数据训练的 NMT 系统的性能，融合了所有发现，取得了 WMT17 中英翻译任务的最高性能。

Aug, 2018

强化学习中使用自然语言进行奖励塑形

使用自然语言指令进行奖励塑形，在复杂的 Atari 游戏中，比标准强化学习算法成功完成任务的次数平均提高了 60%，并且可以无缝集成到任何标准强化学习算法中。

Mar, 2019