状态空间闭合：通过强化学习重新审视无尽在线关卡生成

Dec, 2022

状态空间闭合：通过强化学习重新审视无尽在线关卡生成

State Space Closure: Revisiting Endless Online Level Generation via Reinforcement Learning

Ziqi Wang, Tianye Shu, Jialin Liu

TL;DR通过提出状态空间封闭的概念，基于经验驱动的强化学习算法生成的内容可以在有限次数的状态下无限生成，且质量不受影响。然而，由于少量的状态空间导致其内容较缺乏多样性，需要进一步解决多样性问题。

Abstract

In this paper, we revisit endless online level generation with the recently proposed experience-driven procedural content generation via reinforcement learning (EDRL) framework. Inspired by an observation that ED

online level generation procedural content generation reinforcement learning state space closure diversity

发现论文，激发创造

解决持续任务强化学习中无界状态空间问题

本篇论文探讨了深度加强学习算法在面对状态空间无法预测，强烈依赖于重置时的困境。通过引入 Lyapunov 启发式奖励塑造方法，策略学习可以更快、更稳定地收敛到最优解

Jun, 2023

基于强化学习的程序化内容生成 (PCGRL)

研究如何使用强化学习训练级别设计代理，将关卡设计视为游戏并将内容生成器本身学习，并探讨了三种不同的转换二维层次设计问题的马尔可夫决策过程，将其应用于三个游戏环境中。

Jan, 2020

使用生成回放进行强化学习的连续状态表示学习

本研究针对建立连续学习中的状态表示模型问题展开讨论，为保留过去知识的同时高效压缩感知状态信息，我们提出了使用变分自编码器（Variational Auto-Encoders）作为状态表示，并基于生成样本的生成回放（Generative Replay）技术来保持过去知识。我们还提供了一种统计意义上合理的自动环境变化检测方法。该方法不仅可提供高效的状态表示和前向传递，还可避免灾难性遗忘。最后得出的模型能够在有限系统空间内逐增学习，无需使用过去数据。

Oct, 2018

可控 3D 楼层生成器的学习

使用强化学习实现程序化内容生成（PCGRL），通过可计算、用户定义的质量度量训练智能体优化 3D 环境下针对 Minecraft 游戏的任务，生成多样化的游戏关卡，展示了 PCGRL 在 3D 环境下的应用和潜力。

Jun, 2022

3D 非静态环境下的持续强化学习

本文提出了一种基于 ViZDoom 的复杂三维非稳态任务的 CRLMaze Continual 学习策略，可以在非稳态的环境下进行端到端无模型学习，并与其他基线方法相比表现出竞争力。

May, 2019

用于强化学习的快速生成模型的学习和查询

在模型基强化学习中，精心设计的生成模型 —— 状态空间模型可以学习和操作紧凑的状态表述，并且显著降低动作序列预测的计算成本。在广泛的实验中，状态空间模型可以精确捕捉 Atari 游戏的动态，并且提供了高速计算，这使它们在强化学习的决策中具有实用价值。

Feb, 2018

未知环境下在线覆盖路径规划的端到端强化学习

该研究提出了基于强化学习的、连续状态和动作空间下的在线覆盖路径规划方法，用于处理未知环境的大型区域，并且结合了全局地图和局部感知输入，以及多尺度地图输入表示的观测空间构建，通过提出的全变差奖励，实现了学习路径上无漏洞被覆盖的目标。

Jun, 2023

连续状态空间中的显式探索 - 利用算法

提出了一种基于模型的强化学习算法，该算法包括明确的探索和利用阶段，并适用于大规模或无限状态空间，该算法维护一组与当前体验一致的动态模型，并通过查找在状态预测之间引起高度分歧的策略来进行探索，然后利用精细化的模型或在探索过程中收集的体验，我们证明，在实现和最优规划的假设下，我们的算法能够用多项式结构复杂度度量在很多自然设置中得到完美的政策，并给出了一个使用神经网络的实用近似，并证明了它在实践中的性能和样本效率。

Nov, 2019

将进化搜索与行为克隆相结合，用于程序生成内容

本文提出了一种将进化搜索和强化学习相结合的框架，通过行为克隆将演化的关卡序列提炼为策略，以生成更快速的关卡，我们将其应用于迷宫游戏和超级马里奥兄弟中，结果表明该方法能够显著缩短关卡生成的时间。

Jul, 2022

通过程序化关卡生成，照亮深度强化学习的泛化问题

本文探讨了通过在训练中使用过程化生成的关卡如何增加模型的泛化性能，并研究了其与人类设计的关卡的关系。结果表明，通过降低难度、调整关卡设计，可以获得更好的性能表现，并进行了降维和聚类分析来评估关卡生成器的分布。

Jun, 2018