本文介绍了一种使用自然语言帮助强化学习泛化至未知环境技术的方法,使用编码器 - 解码器网络来学习自然语言行为描述与状态 - 动作信息之间的关联,并使用改进的策略塑造算法来指导智能体探索,从而提高其在未知环境中的学习能力。通过对经典游戏 Frogger 的评价,表明我们的改进策略形态算法在优化学习上优于 Q-Learning 算法和基线策略形态算法。
Jul, 2017
本研究提出了一种新的基于统计规划的自然语言生成模型,它能够在存在噪声反馈的情况下(例如用户和实现器的当前生成上下文),有效地解决常见的自然语言生成问题,包括信息展示、语句长度和信息传递量等方面的折衷问题。我们采用强化学习方法训练该模型,并将其性能与先前工作中的基准性能进行了比较,结果表明,该模型的性能明显优于所有基线模型。
Jun, 2016
本文探讨以自然语言接口为代理奖励函数来简化奖励设计,在强化学习框架下利用大型语言模型对用户目标进行培训,实现智能体与用户目标的对齐,并在 Ultimatum 游戏、矩阵游戏和 DealOrNoDeal 谈判任务中优于通过监督式学习学习的奖励函数训练的 RL 智能体。
Feb, 2023
本文提出了一种使用强化学习方法进行关键词生成的技术,利用自适应的奖励函数鼓励模型生成足够且准确的关键词,并引入了一种新的评估方法,该方法使用维基百科知识库来确保更加鲁棒的关键词质量评估。该方法在不同规模的五个真实世界数据集上实现了显著的性能提升,从而验证了其优越性。
Jun, 2019
本文提出了一种新颖的对抗式逆强化学习算法,使用条件化语言政策和奖励函数,以及使用变分目标生成器提高学习策略和奖励函数的泛化性,从而使自然语言变得可用于指导智能体任务的目标, 获得了非常好的性能表现。
Aug, 2020
本文介绍了如何利用奖励学习将强化学习应用于自然语言任务中,旨在建立适用于现实世界任务的奖励模型。我们将奖励学习应用于四个自然语言任务(文本连续生成、摘要),取得了不错的结果,但模型可能会利用人类评估者的简单启发式规则。
Sep, 2019
通过使用自动生成的语言反馈以及改进的决策变压器架构,在强化学习中引入更丰富、更贴近人类反馈的方式可以改善智能体的泛化性能。
Dec, 2023
使用自然语言指令进行奖励塑形,在复杂的 Atari 游戏中,比标准强化学习算法成功完成任务的次数平均提高了 60%,并且可以无缝集成到任何标准强化学习算法中。
Mar, 2019
强化学习和自然语言表示相结合的自然语言强化学习 (NLRL) 框架在解决样本效率低、解释性差、稀疏监督信号等问题方面表现出了显著的能力。通过在自然语言空间重新定义强化学习的概念和原则,以及结合大型语言模型的先进技术如 GPT-4 的实现方式,NLRL 在标签驱动的 MDPs 上的初步实验证明了该框架的有效性、效率以及可解释性。
Feb, 2024
提出了两种方法来使机器翻译系统对训练中使用的度量函数的依赖性降低,一种是熵正则化 RL 方法,另一种是探索动态无监督奖励函数的新的 RL 方法,这些方法可改善机器翻译的质量和泛化性能,同时减少 BLEU 奖励函数对参考文本中所使用的单词的依赖。
Feb, 2021