马尔可夫决策过程中的主动探索

Feb, 2019

Active Exploration in Markov Decision Processes

Jean Tarbouriech, Alessandro Lazaric

TL;DR本研究针对在 Markov 决策过程中的主动探索问题进行了研究，提出了一种新的学习算法，用以解决 MDPs 中的主动探索问题并证明了其相对于 MAB 来说更为复杂，同时也给出了一个用于缓解策略收敛速度缓慢的启发式过程。

Abstract

We introduce the active exploration problem in markov decision processes (MDPs). Each state of the MDP is characterized by a random value and the learner should gather samples to estimate the mean value of each s

active exploration markov decision processes multi-armed bandit learning algorithm policy

发现论文，激发创造

马尔可夫决策过程中的主动模型估计

本文研究了基于 Markov 决策过程 (MDP) 环境中的精确建模的高效探索问题，提出一种以加权熵为基础的算法用于解决贪心算法在探索初阶段表现较差的问题，并在简单的具有异构噪音的两个问题上进行了验证。

Mar, 2020

有界最优探索在 MDP 中的应用

本文提出简单算法来解决在短期内实现理论驱动的探索方法和实际需求之间的纠葛，并通过理论分析和数字示例展示所提出的放宽条件的好处，同时维持任何时候的误差边界和平均损失边界，并且适用于贝叶斯和非贝叶斯方法。

Apr, 2016

强化学习中的保守探索

本文介绍了在概率有限马尔可夫决策问题中引入保守探索的概念，并提出了两种乐观算法，以保证学习过程中不违反保守约束，这不会妨碍算法的学习能力，并给出了后悔界限。

Feb, 2020

基于模型的主动探索

论文提出了一种高效的 Model-Based Active eXploration (MAX) 算法用于强化学习中的有效探索，该算法使用前向模型的集合来规划观察新事件的行为，优化代理行为，通过基于贝叶斯的探索估计集合成员之间的未来预测差异衡量新颖性，实验证明在半随机离散环境中 MAX 比强基线算法至少高效一个数量级，能够扩展到高维连续环境。

Oct, 2018

利用隐空间动态模型的信息最大化探索

本文提出一种基于模型行动选择的强化学习方法，该方法在价值函数的潜在特征空间中学习动态模型，实现机器人和环境的动态表示和模型自我激励，从而解决传统方法当中的探索与利用权衡问题，并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能，重点是改善探索。

Apr, 2018

利用高斯过程进行有限马尔可夫决策过程的安全探索

本文提出针对有安全限制的探索问题的新型算法，使用高斯过程先验来表达未知安全限制，具有积极探索安全状态和行为、同时考虑到可达性并能够完全探索可达状态的能力。演示实验使用机器人探索数字地形模型。

Jun, 2016

远视视野好奇心

本文针对未知 Markov 决策过程提出一种机器学习算法，采用序贯贝叶斯实验设计框架，通过基于轨迹优化的近似方法处理最优探寻问题，以在无先验知识的情况下探索未知环境，实现最优输入合成的系统识别。相比于其他以内在动机为基础的算法，该算法在收敛速度和最终模型保真度上都表现出明显的优势，同时与最近的基于模型的主动探索算法相比，该方案更专注于沿轨迹获取的信息量，具有明显的计算优势。

Oct, 2019

使用 Baum-Welch 算法主动学习马尔可夫决策过程（扩展版）

本文探讨应用自动机学习算法对基于模型验证的关键信息进行提取，实现对物理系统的建模，并基于主动学习和 Baum-Welch 算法对马尔可夫决策过程和马尔可夫链进行学习，最终证明了该种方法可以显著减少建模所需的观测次数。

Oct, 2021

高斯过程状态空间模型本地主动学习

本文提出了一种基于高斯过程状态空间模型的主动学习策略，旨在获取状态操作空间有界子集上的准确模型，并通过模型预测控制集成探索过程中收集的信息和自适应改进探索策略。

May, 2020

带有噪声状态观测的马尔可夫决策过程

通过建模不确定性来解决马尔可夫决策过程（MDPs）中一类特定的嘈杂状态观测问题，提出了两种新的算法方法，一种是用于有限时间窗口内有效噪声估计的二阶重复动作方法，另一种是一组贝叶斯算法，通过模拟实验证实了这些方法在不同场景下尤其在具有不同稳定分布的环境中的有效性。

Dec, 2023