自我监督行为复制的变压器是文本游戏的路径爬虫

EMNLPDec, 2023

自我监督行为复制的变压器是文本游戏的路径爬虫

Self-Supervised Behavior Cloned Transformers are Path Crawlers for Text Games

Ruoyao Wang, Peter Jansen

TL;DR我们介绍了一种自监督行为克隆变压器，用于文本游戏，这是虚拟环境中的多步推理的具有挑战性的基准。通过自动生成训练数据的方式，我们的方法能够在三个基准文本游戏中实现约 90％的监督系统性能。

Abstract

In this work, we introduce a self-supervised behavior cloning transformer for text games, which are challenging benchmarks for multi-step reasoni

self-supervised behavior cloning transformer text games multi-step reasoning training data benchmark

发现论文，激发创造

行为克隆变压器是神经符号推理器

本研究探索了将符号模块的信息注入交互式智能体的技术，同时测试了这些智能体在文本游戏中的推理能力，结果表明将符号模块的操作注入到行动空间中可以提高代理程序在涉及算术、导航、排序和常识推理的四个文本游戏基准上的表现。此技术易于扩展到新的智能体，环境和符号模块。

Oct, 2022

多游戏决策转换器

本研究探讨了采用 transformer-based model 方法训练的多用途强化学习代理程序在 Atari 游戏中的表现，发现使用 Multi-Game Decision Transformer 模型的性能和可伸缩性最佳，并提供预训练模型和代码以鼓励该方向的进一步研究。

May, 2022

行为变换器：一石多鸟地克隆 $k$ 种模式

本文介绍了一种名为 BeT 的新技术，该技术利用多模式建模，并结合动作离散化技术和多任务操作校正，在离线强化学习和行为克隆方面表现出色。我们在各种机器人操作和自驾行为数据集上进行了实验评估，并显示出 BeT 显着改善了解决示范任务的先前最先进工作，同时捕获了预先收集的数据集中存在的主要模式。

Jun, 2022

学习动态信念图以推广文本游戏

通过使用端到端学习的图形结构表示，我们提出一种新颖的图形辅助转换器代理（GATA），并探究其如何计划和推广文本游戏，并证明学习到的基于图形的表示有助于代理人收敛到比纯文本模型更好的策略，促进游戏配置的有效推广。

Feb, 2020

从游戏到政策：基于未筛选机器人数据的条件行为生成

本文提出了一种名为 C-BeT 的新方法，结合了 Behavior Transformer 多模态生成能力和条件生成模型技术，实现从多模态、嘈杂数据中提取有用、任务中心的行为，取得了有益的效果，而该方法也是第一个实现从无标签、零奖励信息的玩耍数据里纯学习真实世界机器人有用任务行为的方法。

Oct, 2022

一份 ACT 戏剧表演：单一演示行为克隆与行动分块变压器

使用行为克隆从单个人类示范中学习任务，通过使用线性变换增强单个示范来生成一系列初始条件广泛变化的轨迹，从而成功训练行为克隆智能体完成三个方块操作任务，并通过在推断期间将行动预测的标准差纳入集成方法中，使方法对环境中的意外变化更加稳健，从而实现了显著的性能提升。

Sep, 2023

PCGPT：基于 Transformer 的程序化内容生成

本篇论文介绍了一种创新方法，PCGPT 框架，该方法利用离线强化学习和 Transformer 网络进行程序化内容生成（PCG）。PCGPT 利用基于 Transformer 的自回归模型迭代生成游戏关卡，解决了传统 PCG 方法中重复、可预测或不一致的内容的挑战。该框架模拟动作、状态和奖励的轨迹，利用 Transformer 的自注意机制捕捉时间依赖性和因果关系。该方法在 Sokoban 益智游戏中进行了评估，模型预测了所需物品及其对应位置。Sokoban 游戏的实验结果表明，PCGPT 生成了更复杂和多样化的游戏内容。有趣的是，与现有方法相比，PCGPT 在显著较少的步骤中实现了这些结果，展示了其增强游戏设计和在线内容生成的潜力。我们的模型代表了一种超越以往方法的新的 PCG 范例。

Oct, 2023

一次即视视觉模仿的变形金刚

本文介绍了一种使用神经网络和 Transformer 注意机制的方法，通过向机器人展示上下文视频来缩小机器人学习中的领域差距，并实现了对单次操作任务的 2 倍成功率提升。

Nov, 2020

改变 Transformer 的思想以实现主题可控语言生成

该研究设计了一个交互式写作辅助框架，它利用基于 Transformer 的语言模型为作者提供可能的续写文本主题，并允许作者选择其中一部分以引导生成，研究表明该框架的主题选择比标准的聚类方法更好且自监督的训练能够产生流畅且相关的句子。

Mar, 2021

基于探索的基于文本游戏的语言学习

本文介绍一种采用探索和模仿学习的代理程序，能够在玩基于文本的电脑游戏时表现出最先进的性能。该方法使用 Go-Explore 探索方法以及模仿学习策略去训练模型，实现了更高效的解决文本游戏和更强的泛化能力。

Jan, 2020