马尔可夫决策过程中的主动模型估计

Mar, 2020

马尔可夫决策过程中的主动模型估计

Active Model Estimation in Markov Decision Processes

Jean Tarbouriech, Shubhanshu Shekhar, Matteo Pirotta, Mohammad Ghavamzadeh, Alessandro Lazaric

TL;DR本文研究了基于 Markov 决策过程 (MDP) 环境中的精确建模的高效探索问题，提出一种以加权熵为基础的算法用于解决贪心算法在探索初阶段表现较差的问题，并在简单的具有异构噪音的两个问题上进行了验证。

Abstract

We study the problem of efficient exploration in order to learn an accurate model of an environment, modeled as a markov decision process (MDP). Efficient exploration in this problem requires the agent to identif

efficient exploration markov decision process sample complexity analysis weighted entropy asymptotic performance

发现论文，激发创造

马尔可夫决策过程中的主动探索

本研究针对在 Markov 决策过程中的主动探索问题进行了研究，提出了一种新的学习算法，用以解决 MDPs 中的主动探索问题并证明了其相对于 MAB 来说更为复杂，同时也给出了一个用于缓解策略收敛速度缓慢的启发式过程。

Feb, 2019

可证明高效的最大熵探索

该研究采用条件梯度法，利用近似 MDP 求解器提供高效算法，解决了在没有奖励信号的情况下对一类内在目标进行优化的问题。

Dec, 2018

远视视野好奇心

本文针对未知 Markov 决策过程提出一种机器学习算法，采用序贯贝叶斯实验设计框架，通过基于轨迹优化的近似方法处理最优探寻问题，以在无先验知识的情况下探索未知环境，实现最优输入合成的系统识别。相比于其他以内在动机为基础的算法，该算法在收敛速度和最终模型保真度上都表现出明显的优势，同时与最近的基于模型的主动探索算法相比，该方案更专注于沿轨迹获取的信息量，具有明显的计算优势。

Oct, 2019

通过生成模型实现鲁棒强化学习的样本复杂性

该研究提出了一种基于模型的强化学习算法，用于学习在标准和不确定的模型下最优的稳健控制策略，并考虑了不同形式的不确定性集合

Dec, 2021

广义最大熵估计

本文提出了一个基于凸规划对偶性的新的近似方案，使用平滑的快速梯度方法来估计最大化熵的概率分布，同时满足一定数量的被噪声污染的时刻约束，进一步阐述了如何通过该方案来近似化学主方程和解决具有无穷状态和动作空间的约束马尔可夫决策过程的问题。

Aug, 2017

有界最优探索在 MDP 中的应用

本文提出简单算法来解决在短期内实现理论驱动的探索方法和实际需求之间的纠葛，并通过理论分析和数字示例展示所提出的放宽条件的好处，同时维持任何时候的误差边界和平均损失边界，并且适用于贝叶斯和非贝叶斯方法。

Apr, 2016

如何在 POMDPs 中通过信念进行探索：状态熵最大化

本文研究了强化学习中的状态熵最大化，针对部分观测的真实状态提出了一种内存和计算效率高的策略梯度方法，解决了目标近似、优化和幻觉问题，旨在推广状态熵最大化到更现实的领域。

Jun, 2024

学习未知马尔可夫决策过程：一种汤普森抽样方法

本文提出了一种基于贝叶斯的 Thompson Sampling 加持的动态时段算法 (TSDE)，尝试在无限的时间尺度内解决了一个学习未知 MDP 的问题，实现了很好的性能并达到了理论界限。

Sep, 2017

带有噪声状态观测的马尔可夫决策过程

通过建模不确定性来解决马尔可夫决策过程（MDPs）中一类特定的嘈杂状态观测问题，提出了两种新的算法方法，一种是用于有限时间窗口内有效噪声估计的二阶重复动作方法，另一种是一组贝叶斯算法，通过模拟实验证实了这些方法在不同场景下尤其在具有不同稳定分布的环境中的有效性。

Dec, 2023

高斯过程状态空间模型本地主动学习

本文提出了一种基于高斯过程状态空间模型的主动学习策略，旨在获取状态操作空间有界子集上的准确模型，并通过模型预测控制集成探索过程中收集的信息和自适应改进探索策略。

May, 2020