使用学习的符号表示在 Atari 游戏中进行像素规划

AAAIDec, 2020

使用学习的符号表示在 Atari 游戏中进行像素规划

Planning from Pixels in Atari with Learned Symbolic Representations

Andrea Dittadi, Frederik K. Drachmann, Thomas Bolander

TL;DR本文介绍了一种基于宽度搜索的 Atari 2600 游戏 AI，采用宽度规划方法结合基于布尔特征集的 RolloutIW 方法，通过学习图像特征并使用 RolloutIW 输出的特征作为输入，本方法能够大幅提高 Atari 2600 游戏 AI 的性能和特征集的大小。

Abstract

width-based planning methods have been shown to yield state-of-the-art performance in the atari 2600 domain using pixel input. One successful approach, →

width-based planning methods rolloutiw boolean feature set variational autoencoders atari 2600

发现论文，激发创造

像素领域中基于宽度规划的深度策略

本研究扩展了基于宽度的规划算法并引入了显式的策略学习，以增强先前的回报信息。与先前的算法相比，将策略估计视为神经网络，用于引导规划，并展示了其在 Atari 游戏套件像素设置中的卓越表现，同时也去除了规划的预定义特征要求。

Apr, 2019

用像素进行（几乎）实时规划

通过使用基于屏幕的计划方法，我们研究了 Atari 2600 视频游戏的规划问题，结果表明，该方法能够快速比较人类和机器学习方法的规划结果，并通过 IW (k) 算法的每一回，实现了几乎实时的在线规划。

Jan, 2018

Atari 中的无监督状态表示学习

本论文提出了一种学习状态表示的方法，通过最大化观察神经编码器的空间和时间不同特征之间的相互信息来学习这些表示。此外，本文还介绍了一个基于 Atari 2600 游戏的新基准评估方法，用于评估它们能够捕捉地面真实状态变量的能力。我们相信这个新的评估框架会对未来的表示学习研究至关重要。最后，我们将我们的技术与其他最先进的生成和对比表示学习方法进行了比较。

Jun, 2019

Minecraft 中的无监督技能发现和技能学习

本文介绍了一种使用无监督技术和自监督学习的状态表征方法，可以帮助强化学习智能体快速学习到基本导航技能。在使用像素地图进行评估时，我们发现像素表示和条件政策学习适用于玩具例子，但不适用于逼真和复杂的地图。因此我们还研究了相对位移等替代观测输入。

Jul, 2021

基于像素的离散控制深度主动推理：在汽车赛车问题上的评估

本研究探讨了在没有接触到车的状态的情况下，使用深度主动推理（dAIF）代理在 OpenAI 的赛车基准测试中的表现，并通过无监督表示学习来学习状态推断和控制，结果表明我们的模型达到了与深度 Q 学习相当的性能，但与其他一些世界模型方法相比，vanilla dAIF 没有达到最先进的性能，本文讨论了当前模型实现的局限性和克服它们的可能架构。

Sep, 2021

Atari 游戏中部分可观测无监督表示学习

本文提出了一种用于部分可观测状态的无监督状态表示学习方案，相比受监督学习的 ST-DIM 方法在 Atari 游戏中的表现提高了，平均准确率得分达到了约 66％，平均 F1 得分为约 64％。

Mar, 2023

变分原型编码器：原型图像的单次学习

本研究提出了一种名为变分原型编码器（VPE）的方法，通过元任务学习图像相似性和手册概念，解决了一次性分类的图形符号识别问题。与其他基于度量学习的方法相比，实现的 VPE 在多样数据集上具有更好的性能。

Apr, 2019

以偏好为条件的基于像素的人工智能游戏测试代理

游戏行业面临着不断增长的需求和游戏复杂度，同时维持发布游戏的可接受质量标准的挑战。本文提出了一种基于像素状态观察的代理设计，通过演示轨迹来满足游戏测试工程师的喜好，并结合自监督和监督学习目标的模仿学习方法，显著优于现有基于像素的游戏测试代理，对复杂的开放世界环境进行探索覆盖和测试执行质量评估。

Aug, 2023

学习素描：将规划问题分解为有限宽度的子问题：扩展版

该研究描述了使用草图来表示相同领域实例的子目标结构的能力，并提出了一种自动学习草图的解决方案，以及该解决方案所使用的 ASP 求解器 Clingo 和 SIW_R 规划器。

Mar, 2022

更紧的变分界并不一定更好

本文提供理论和实证证据表明，使用更严格的证据下界（ELBO）可能会降低梯度估计器的信噪比，从而对学习推理网络产生不利影响，并介绍了三种新算法：偏重要性加权自动编码器（PIWAE），乘法重要性加权自动编码器（MIWAE）和组合重要性加权自动编码器（CIWAE）。同时，我们的结果表明，PIWAE 可以同时改善推理和生成网络的训练。

Feb, 2018