- ACLSTARLING:基于大型语言模型的文本强化学习自监督训练代理
自动化游戏生成的 STARLING 环境为基于文本的强化学习代理提供了提升性能和泛化能力的能力,以通过与预定义任务集上的训练来提高代理的技能水平。
- 探索导向的文本强化学习推理
本文提出了一种用于文字强化学习的探索引导推理代理 EXPLORER,通过神经符号化模块实现对未见数据的泛化并在 Text-World cooking 和 Text-World Commonsense 游戏中取得了优于基准代理的性能。
- AAAI大型语言模型是神经符号推理器
该论文研究了大型语言模型作为符号推理器的潜在应用,提出了一个针对符号挑战和实现游戏目标的 LLM 代理,并通过实验结果证明了其能显著增强 LLMs 作为符号推理自动化代理的能力,对涉及符号任务的基于文本的游戏取得了 88% 的平均性能。
- IJCAIScriptWorld:学习程序化知识的文本环境
介绍了一种名为 ScriptWorld 的基于文本的环境,用于教授智能代理关于日常家务事的现实世界常识知识,实验表明,从预训练的语言模型获取的先前知识有助于解决现实文本游戏环境。
- ByteSized32:一种用于生成文本游戏的特定领域世界模型的语料库和挑战任务
研究了语言模型在生成基于科学和常识推理任务的世界模型的能力,以生成基于任务的文本游戏解决方案作为问题。使用 32 款高度模板化的 Python 文本游戏和一套用于评估的 16 个未见过的文本游戏说明书,提出了一系列衡量模拟的有效性、合规性、 - 基于文本游戏的自然语言动作空间的最小化方法
该研究重思了文本游戏里针对动作空间探索的挑战并提出了一种基于可接受动作的训练方法和一个不需要任何语言 / 知识模型的基于文本的 actor-critic 智能体,相比使用了语言 / 知识模型的强基线和最先进的智能体,我们的方法在 10 个 - EMNLPDiffG-RL: 利用状态与常识差异的强化学习
通过构建差异图,使用一种交互式对象与专用图形编码器组织环境状态和常识的方式,文中提出一种新型代理 DiffG-RL,旨在从源中提取适当数量的常识信息,以支持图形的构建,用于解决既需考虑文本情境和常识,又需要进行决策的文本游戏任务,并通过实验 - 文本游戏中的指令跟随学习
研究文本游戏在强化学习环境下的指令正确率,设计使用 Linear Temporal Logic 结构化语言支持时间上下文语义的指令,通过文字游戏的实验验证该结构化语言指令的有效性和优越性。
- 基于文本游戏的深度强化学习智能体分析
在这篇论文中,我们构建了一个标准的无人工规则的基于文本的游戏智能体,在此环境中研究了代理设计、深度学习、评估类型和标准化等问题。
- ACLTextWorldExpress: 以每秒 100 万步速度模拟文字游戏
这篇论文介绍了一种高性能的模拟器 TextWorldExpress,通过其可以实现对基于文本的游戏的模拟,从而研究虚拟代理人的语言理解、多步问题求解、常识推理等方面,并显著缩短实验运行时间,可以在一天内进行数十亿步的实验。
- ACL感知世界:针对基于文本游戏的问题引导强化学习
本研究探讨了深度强化学习在文本游戏中的应用,提出了通过引入知觉模块以及使用两阶段训练框架来提高样本效率,从而解决了应用 DRL 的两个主要挑战。实验结果表明,提出的方法显着提高了性能和样本效率,并且对复合错误和数据有限的预训练表现出鲁棒性。
- EMNLP一阶逻辑中的神经符号强化学习
为了在文本角色扮演游戏中实现快速收敛和可解释的知识表示,我们提出了一种新的基于逻辑神经网络的强化学习方法,该方法可以从文本观察中提取一阶逻辑事实并使用逻辑算子训练策略,实验结果表明该方法比其他基于神经元符号框架的方法更快收敛。
- ICLR基于案例推理的文本强化学习通用性改善技术
本文提出了一种基于基于案例推理的通用方法来训练代理和实现训练分布之外的泛化,与现有文献中的 TBG 中任何现有的政策神经代理结合使用。实验表明,所提出的方法不断改进现有方法,在广泛使用的环境中获得了新的最先进结果。
- EMNLP通过分层强化学习在基于文本的游戏中实现泛化
本文介绍了一种基于知识图谱的 RL 代理的层次化框架,通过在高层次执行元策略将整个游戏分解为一组由文本目标指定的子任务,并通过知识图谱选择其中一个,然后在低层次执行子策略进行目标条件强化学习,实验结果表明,所提出的方法具有较好的泛化性能。
- 学习基于知识图谱的文本环境世界模型
该论文聚焦于构建基于文本的游戏环境的世界模型,利用知识图谱和自然语言行动生成模型,提升增强学习智能体在该环境下的效率。通过零样本消融实验,表明该方法显著优于现有的文本世界建模技术及其各自贡献的重要性。
- Beholder 的眼睛:基于文本的强化学习智能体的关系泛化改进
本文通过使用 TEXT-BASED GAMES,提出了一种新的学习方法,利用视觉图像与文本信息相结合,提高了强化学习智能体的性能及其对于世界中物体及其关系的理解,从而提高了其通用性。
- ACL盲目阅读和行动:文本游戏代理需要语义学
以基于文本的游戏为测试平台,研究了自然语言理解代理的语义理解能力;实验结果表明,在降低语义信息量的情况下,自主代理仍能够在游戏中取得高分,提出了逆动力学解码器来增强语义理解的性能。
- 基于层叠分层注意力的深度强化学习在基于文本的游戏中的应用
本文研究了强化学习在基于文本的游戏中的应用,提出了利用知识图谱进行明确推理的方法,并通过分层注意机制构建了推理过程的显式表示,实验结果表明该方法优于现有的基于文本的代理人。
- EMNLP保持冷静探索:基于语言模型的基于文本的游戏行动生成
本文提出了上下文行动语言模型 (CALM),该模型结合人类玩家的语言先验以及游戏历史信息生成紧凑的候选操作列表,并结合强化学习代理对其进行排序以最大化游戏收益,我们的实验使用 Jericho 基准测试游戏并在训练期间未见过的游戏中获得了 6 - EMNLP基于文本游戏的上下文相关观测值修剪引导的自适应 Q 学习
提出了一种基于 RL 的 CREST 方法,通过去除观测文本中的无关词汇来提高 RL 在 Text-Based Games 中的泛化性能,实验表明该方法可以使用更少的训练数据来解决新的游戏。