如何激励你的巨龙：教授目标驱动型智能体在奇幻世界中说话和行动

ACLOct, 2020

如何激励你的巨龙：教授目标驱动型智能体在奇幻世界中说话和行动

How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds

Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam, Tim Rocktäschel...

TL;DR使用大规模语言建模和常识推理的预训练来提高多代理之间的沟通，使用 RL 系统平衡行动和对话并结合人工操作进行零样本评估。

Abstract

We seek to create agents that both act and communicate with other agents in pursuit of a goal. Towards this end, we extend LIGHT (Urbanek et al. 2019) -- a large-scale crowd-sourced fantasy text-game -- with a dataset of quests. These contain natural language motivations paired with in-game goals and human demonstrations; completing a quest might require dia

multi-agent communication reinforcement learning language modeling natural language processing human demonstrations

发现论文，激发创造

通过过程环境生成进行情境对话学习

通过在生成的课程上训练，我们教会了目标驱动型智能体在位置化环境中交互行为和语言表达。我们通过在大规模众包幻想文本冒险游戏（LIGHT）中学习，增强了 LIGHT 的功能，并学会了生成额外的小说文本世界和任务，以创建一个渐进式递增难度的课程，以训练智能体达到这样的目标。通过从分布的尾部学习，我们测量该课程的难度，根据最初的训练分布中任务的稀有程度评估其难度 —— 更容易的环境是更有可能在未增强数据集中找到的环境。消融研究表明，从分布的尾部学习的这种方法，可以在从未见过的任务上度量的零 - shot 性能方面，产生显着更高的泛化能力。

Oct, 2021

在奇幻文本冒险游戏中学习说话和行动

本文介绍了一个大规模的众包文字冒险游戏作为研究平台，用于研究基于场景的对话。在其中，代理可以感知，表情和行动，同时与其他代理进行对话。我们介绍了在这种情况下训练最先进的生成模型和检索模型的结果。我们展示了除了过去的对话，这些模型还能够有效地使用潜在世界的状态来调整它们的预测，特别是使用本地环境的详细信息，包括位置描述和其中存在的对象（及其可用性）和角色（及其先前的行动），可以更好地预测代理行为和对话。我们分析了在这种设置中成功落地所需的要素，以及每个因素如何与能够成功说话和行动的代理相关。

Mar, 2019

一名 AI 地牢大师的指南：学习在龙与地下城（Dungeons and Dragons）中使用意图和心智理论进行对话和指导

该研究提出了一个基于角色扮演游戏 Dungeons and Dragons 的新任务 G4C（Goal-driven Guidance Generation in Grounded Communication），通过满足学习者的目标来培养具有人类思维想象力的 DM（Dungeon Master），实现在基于语境的自然语言交互中 DM 对学生进行有效指导的训练方法。

Dec, 2022

两个 DRAGGN 的故事：一种混合方法解释以行动和目标为导向的指令

本研究提出了深度递归动作 - 目标基础网络（DRAGGN）用于任务的基础和执行，其处理输入的任何类别的自然语言，并且通用于未见过的环境，在仿真机器人的实验中取得成功，这使我们更接近于为人机交互实现稳健的自然语言理解。

Jul, 2017

目标导向的故事生成：用强化学习增强生成式语言模型

本文介绍了两种自动化技术，基于深度强化学习和奖励塑造来控制计算机生成的故事的情节，其中一种利用 PPO 对现有的基于变压器的语言模型进行微调，以生成既能连续文本又能寻求目标的故事；而另一种从不断展开的故事中提取出一个知识图谱，由含有图形注意力机制的策略网络选择由语言模型生成的一个候选连续行。我们根据自动化指标和人类参与者对连贯性和整体故事质量的排名来报告与基线和消融情况的比较。

Dec, 2021

文本建模世界

该研究提供了一个数据集，用于训练能够构建基于知识图谱的交互叙事世界模型的学习代理。数据集包含了 24198 个富自然语言观察和知识图谱之间的映射，以及多个流派的 27 个游戏中的训练数据和 9 个附加的游戏中包含的 7836 项测试集等内容。此外，研究还提供了基于规则、问答和序列学习方法的基线模型以及数据分析。

Jun, 2021

通过 RL 对想象中的对话进行零样本目标导向对话

通过使用强化学习进行交互式对话的目标导向任务，本研究提出利用大型语言模型生成可能的交互示例，再通过强化学习算法优化这些示例，以实现更优化的交互能力，从而在教学和偏好引导等不同目标导向对话任务中实现了最新的性能。

Nov, 2023

具备自然语言目标的逆强化学习

本文提出了一种新颖的对抗式逆强化学习算法，使用条件化语言政策和奖励函数，以及使用变分目标生成器提高学习策略和奖励函数的泛化性，从而使自然语言变得可用于指导智能体任务的目标，获得了非常好的性能表现。

Aug, 2020

语言作为认知工具在好奇驱动的探索中想象目标

该研究论文旨在探讨发展性机器学习方法，通过模仿儿童利用语言描述目标实现创造性发现和开放式的学习过程中的能力，提出了一种叫做 IMAGINE 的深度强化学习框架，并研究了其泛化和探索能力，以及目标想象、模块化和社交互动等因素对其结果的影响。

Feb, 2020

指挥官意图：战略游戏中人工智能任务规定的数据集和建模方法

该论文提出一种使用目标和约束作为支架来调节和评估自主代理，并通过提供一种新颖的数据集和相关的数据收集协议，利用最先进的自然语言处理模型和增强程序开发了一种可用于从非结构化策略描述中识别目标和约束的机器学习框架，其结果表明，机器学习架构比人类评分员更能将非结构化语言描述解释为策略规范。

Aug, 2022