STARLING：基于大型语言模型的文本强化学习自监督训练代理

ACLJun, 2024

STARLING：基于大型语言模型的文本强化学习自监督训练代理

STARLING: Self-supervised Training of Text-based Reinforcement Learning Agent with Large Language Models

Shreyas Basavatia, Keerthiram Murugesan, Shivam Ratnakar

TL;DR自动化游戏生成的 STARLING 环境为基于文本的强化学习代理提供了提升性能和泛化能力的能力，以通过与预定义任务集上的训练来提高代理的技能水平。

Abstract

interactive fiction games have emerged as an important application to improve the generalization capabilities of language-based reinforcement lea

interactive fiction games language-based reinforcement learning self-supervised rl text-based games generalization capabilities

发现论文，激发创造

互动文本游戏的知识增强代理

该文提出了一种通过注入领域知识的方式来改善基于文本游戏中的智能代理的实现过程，并考虑了多种不同的注入策略，包括知识图谱和输入编码策略的增强，实验结果在 ScienceWorld 文本游戏环境中得到证明。

May, 2023

使用深度强化学习的基于文本游戏的语言理解

本文探讨了基于文本的游戏控制策略的学习方法。该方法使用深度强化学习框架，联合学习游戏状态表示和行动策略。通过把文本转化为向量，能够更好地捕捉游戏状态的语义表示。实验结果表明，我们提出的方法显著优于传统基于词袋模型的方法。

Jun, 2015

应用于交互小说的深度强化学习算法改进

本文研究利用深度强化学习算法可玩具有组合性、稀疏奖励、有部分可观察性的文本游戏。提出了基于累积奖励的上下文化机制，缓解了部分可观测性，研究了可行动作的不同方法，并在一系列不同难度的文本游戏和 Zork 游戏中进行了实证研究，结果表明这些技术提高了基于文本游戏的深度强化学习代理的性能。

Nov, 2019

目标导向的故事生成：用强化学习增强生成式语言模型

本文介绍了两种自动化技术，基于深度强化学习和奖励塑造来控制计算机生成的故事的情节，其中一种利用 PPO 对现有的基于变压器的语言模型进行微调，以生成既能连续文本又能寻求目标的故事；而另一种从不断展开的故事中提取出一个知识图谱，由含有图形注意力机制的策略网络选择由语言模型生成的一个候选连续行。我们根据自动化指标和人类参与者对连贯性和整体故事质量的排名来报告与基线和消融情况的比较。

Dec, 2021

通过强化学习进行协作多智能体对话模型训练

本文利用 DSTC2 数据为种子数据，建立了功能包括：natural language understanding 和 natural language generation 的 conversational agent，并让它们通过生成自然语言进行在线交互，进而将这个交互行为建模成一个随机协作游戏，并在实验中表现出优于 deep learning 的结果。

Jul, 2019

基于文本游戏的语言扩展

本文探讨了使用基于深度强化学习的代理人在多个基于文本的游戏中进行学习，并通过策略蒸馏方法扩展其词汇，并将文本游戏用作测试平台以更详细地分析和理解策略蒸馏方法的应用。

May, 2018

BabyAI++: 初探基于实体的语言学习

该研究针对强化学习中的新环境和动态环境，通过使用描述性文本探究使用教育性文本是否有助于代理在这些环境下的泛化，并通过 BabyAI++ 开发了一种基于视觉语言学习的新方法，实验结果表明，使用描述性文本可以提高 RL 代理在不同动态环境下的泛化能力。

Apr, 2020

学习基于知识图谱的文本环境世界模型

该论文聚焦于构建基于文本的游戏环境的世界模型，利用知识图谱和自然语言行动生成模型，提升增强学习智能体在该环境下的效率。通过零样本消融实验，表明该方法显著优于现有的文本世界建模技术及其各自贡献的重要性。

Jun, 2021

走向基础模型统一的智能体

通过在强化学习代理中嵌入和利用语言模型和视觉语言模型的能力，我们设计了一个框架，将语言作为核心推理工具，能够处理一系列强化学习挑战，如有效的探索、重用经验数据、调度技能以及从观察中学习，从而改进了在模拟的机器人操作环境中的性能，并展示了如何利用学到的技能解决新任务或模仿人类专家视频。

Jul, 2023

超越查询：通过强化学习训练更小的语言模型进行网络交互

针对传统搜索系统在产品搜索等场景中面临的挑战，本研究介绍了一种用于智能网页交互的基于语言模型和强化学习的框架，名为 GLAINTEL。GLAINTEL 通过引入基于 transformer 模型的 Flan-T5 架构，结合语言建模和价值评估模块，实现了对网页环境中搜索能力的增强。通过系统评估不同场景下的训练效果，发现在无人示范的情况下，无监督学习方法的效果优于行为克隆方法，同时将人类示范与强化学习相结合的模型效果与使用 GPT-4 模型的结果相当。

Apr, 2024