学习基于知识图谱的文本环境世界模型

Jun, 2021

学习基于知识图谱的文本环境世界模型

Learning Knowledge Graph-based World Models of Textual Environments

Prithviraj Ammanabrolu, Mark O. Riedl

TL;DR该论文聚焦于构建基于文本的游戏环境的世界模型，利用知识图谱和自然语言行动生成模型，提升增强学习智能体在该环境下的效率。通过零样本消融实验，表明该方法显著优于现有的文本世界建模技术及其各自贡献的重要性。

Abstract

world models improve a learning agent's ability to efficiently operate in interactive and situated environments. This work focuses on the task of building world models of text-based game environments.

world models text-based games reinforcement learning knowledge graph natural language actions

发现论文，激发创造

文本建模世界

该研究提供了一个数据集，用于训练能够构建基于知识图谱的交互叙事世界模型的学习代理。数据集包含了 24198 个富自然语言观察和知识图谱之间的映射，以及多个流派的 27 个游戏中的训练数据和 9 个附加的游戏中包含的 7836 项测试集等内容。此外，研究还提供了基于规则、问答和序列学习方法的基线模型以及数据分析。

Jun, 2021

将常识世界模型注入图谱知识

本文研究在一个开放式世界的文本冒险游戏中生成叙事的设定，使用游戏状态的图形表示来训练模型，可以消耗和输出基于图形的表示和自然语言描述和动作。通过结合众包和模拟游戏玩法构建一组大量的任务和复杂的动作数据集来构建这样的模型，发现通过在图形上下文和目标上训练可以改善动作叙述模型的一致性，即使在测试时没有图形。这在自动指标和人类评估中都得到了证明。我们计划公开代码、新一组任务和最佳表现模型。

Jan, 2023

互动文本游戏的知识增强代理

该文提出了一种通过注入领域知识的方式来改善基于文本游戏中的智能代理的实现过程，并考虑了多种不同的注入策略，包括知识图谱和输入编码策略的增强，实验结果在 ScienceWorld 文本游戏环境中得到证明。

May, 2023

语言引导的世界模型：一种基于模型的人工智能控制方法

安装概率世界模型到人工智能代理中，为人类与控制这些代理打开了一个高效的交流途径；我们开发了一种名为语言引导的世界模型（LWMs），通过阅读语言描述来捕捉环境动态，提高了代理的通信效率，同时允许人类用简洁的语言反馈在多个任务中同时改变行为。该研究证明了当前最先进的 Transformer 架构在该基准测试上表现不佳，激励我们设计更强大的架构。通过模拟展示了我们提出的 LWMs 的实用性，使代理能够在执行前生成和讨论计划，增强了代理的可解释性和安全性，并使其在真实环境中的性能提高了三倍，而无需在该环境中进行任何交互式经验的收集。

Jan, 2024

ScriptWorld：学习程序化知识的文本环境

介绍了一种名为 ScriptWorld 的基于文本的环境，用于教授智能代理关于日常家务事的现实世界常识知识，实验表明，从预训练的语言模型获取的先前知识有助于解决现实文本游戏环境。

Jul, 2023

学习动态信念图以推广文本游戏

通过使用端到端学习的图形结构表示，我们提出一种新颖的图形辅助转换器代理（GATA），并探究其如何计划和推广文本游戏，并证明学习到的基于图形的表示有助于代理人收敛到比纯文本模型更好的策略，促进游戏配置的有效推广。

Feb, 2020

使用文本生成互动式世界

本文介绍了一种用于生成游戏世界的机器学习方法，通过基于多人文本冒险游戏环境 LIGHT 的内容，利用基于神经网络的模型将位置、角色和对象组成一个连贯的整体。除了基于现有元素创建世界，该模型还可以生成新的游戏内容，提供了交互式辅助世界构建的方法，研究表明，我们的方法可以创造出具有连贯性与多样性的游戏环境，人类评估者也相对于其他机器学习方法更偏爱我们的创造方法。

Nov, 2019

让故事活起来：生成交互式小说世界

本文主要介绍了一个基于知识图谱和神经语言模型的交互式小说生成算法，通过提取常识和主题知识来实现语义连贯、有趣、一致的文本世界，实验结果显示该模型优于规则和人工基准。

Jan, 2020

世界模型

本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型，并利用该世界模型进行无监督学习，学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入，我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练，并将该策略传输回实际环境中。

Mar, 2018

使用知识图谱进行深度强化学习的迁移学习

该研究探讨了使用知识图谱作为域知识传输的表示来训练文本冒险游戏中的强化学习智能体的方法，测试其在多个游戏上的迁移学习能力，结果表明这种方法能够更快地学习高质量的控制策略。

Aug, 2019