用于规划的矢量量化模型

ICMLJun, 2021

Vector Quantized Models for Planning

Sherjil Ozair, Yazhe Li, Ali Razavi, Ioannis Antonoglou, Aäron van den Oord...

TL;DR使用离散自编码器来处理动作在随机环境中引起的多种可能性，再结合随机版 Monte Carlo 树搜索算法规划代理的动作和代表环境反应的离散潜变量，明显优于 MuZero 在处理随机国际象棋和 DeepMind Lab 等部分观测模型的 RL 问题中的表现。

Abstract

Recent developments in the field of model-based rl have proven successful in a range of environments, especially ones where planning is essential. However, such successes have been limited to deterministic fully-observed environments. We present a new approach that handles stochastic a

model-based rl stochastic environments partially-observable environments discrete autoencoders monte carlo tree search

发现论文，激发创造

向量量化自编码器的理论与实验

该研究利用基于期望最大化算法的训练技术提高 VQ-VAE 模型在 CIFAR-10 数据集上的图像生成结果，并通过知识蒸馏技术，开发出一种非自回归机器翻译模型，其准确性几乎与强贪婪自回归基线变压器相当，但在推理速度上快 3.3 倍。

May, 2018

在动态环境中使用条件自回归模型进行规划

本文演示了使用条件自回归生成模型（van den Oord 等人，2016a）在离散潜在空间（van den Oord 等人，2017b）上进行 MCTS 的前向规划的方法。通过在包含不同难度级别、移动目标和障碍物的新环境中测试该方法，高质量帧生成和传统规划方法的结合几乎可以匹配我们任务的真实环境性能，这表明了该方法在动态环境中进行基于模型的规划的实用性。

Nov, 2018

由学习的环境模型指导的部分可观测性下的强化学习

本文提出了一种基于 Q-learning 和 IoAlergia 的强化学习方法，用于处理部分可观察环境下的控制系统策略生成，将 RL 与学习环境模型相结合以提供抽象的环境状态获取。实验结果表明，该方法在性能表现上优于六种当下的深度 RL 技术。

Jun, 2022

具有空间记忆的生成时序模型用于部分可观测环境

本文提出了一种新型的基于模型的强化学习方法，利用生成模型和时序模型进行环境建模以达到优化智能体表现的目的，该模型可用于部分观察到的 2D 和 3D 环境中进行跨时间点的预测。

Apr, 2018

CQM：基于量化世界模型的课程强化学习

我们提出了一种新的课程方法，通过自动定义语义目标空间以及在其上提出课程目标来缓解以往方法在高维度空间中生成课程目标时遇到的挑战，并改善课程的可伸缩性。我们通过向量量化变分自动编码器 (VQ-VAE) 将连续观测离散化，并通过图形恢复离散观测之间的时序关系。同时，我们提出了考虑不确定性和时间距离的课程目标，这些目标能够收敛到自动组合的目标空间的最终目标。我们证明了该方法仅仅通过原始目标示例就能在未知环境中实现高效探索，且在各种目标达成任务中，甚至使用自我中心视觉输入时，该方法在数据效率和性能上都优于最先进的课程增强学习方法。

Oct, 2023

使用深度 Q-Learning 和变分自编码器进行可解释选项发现

Deep Reinforcement Learning 领域中基于选择框架的 DVQN 算法提出了一种基于高斯分布的潜在空间来定义选择并通过传统的 Q-Learning 更新来找到良好策略的方法，通过实验证明其可替代 Rainbow 算法在自动识别选择的开始和结束条件方面表现可能更好。

Oct, 2022

部分可观测环境下自主智能体复杂任务的无模型运动规划

该研究使用无模型强化学习方法解决了部分已知环境下自主智能体的运动规划问题，提出了一种基于线性时态逻辑和 Markov 决策过程的方法，并应用于无人机的实际控制中。

Apr, 2023

连续随机动力学学习环境模型

通过深度强化学习、自动化学习和马尔可夫决策过程等技术，学习出由自主智能体控制的环境模型，以解决复杂环境下的控制问题，并在多个强化学习基准环境中验证了方法的有效性。

Jun, 2023

带不确定性的规划：模型基强化学习中的深度探索

本文研究了深度模型与强化学习中的样本效率问题。通过将认知不确定性引入到计划树中，规避了标准方法的不确定性传播，并通过 MuZero 算法进行了评估验证。实验结果表明，可以通过不确定性规划实现有效的深度探索，从而显著提高样本效率。

Oct, 2022

基于模型的离散和连续行动规划

本文介绍了一种使用前向模型的行动计划方法，在离散动作空间中通过反向传播实现规划，使用参数化的动作向量和输入噪声，同时使用策略蒸馏方法，性能优于模型自由 RL 和离散计划方法，可以应用于离散和连续动作空间的模型控制任务。

May, 2017