markov decision problems | BriefGPT

关键词markov decision problems

搜索结果 - 11

线性函数逼近 SARSA 算法的收敛性：随机时限情况
本研究探究了强化学习算法 SARSA 与线性函数逼近的收敛性问题，将算法应用于随机时长的马尔可夫决策问题中，证明了当行为策略为 ε-soft 且与线性函数逼近的权重向量 Lipschitz 连续时，该算法随机收敛的概率为 1。
PDFa year ago
Wasserstein 不确定性下的马尔科夫决策过程稳健 Q 学习算法
我们提出了一种新的 $Q$-learning 算法，用于解决分配鲁棒的马尔可夫决策问题。我们证明了算法的收敛性，并提供了几个示例来说明我们算法的可处理性以及考虑分布稳健性在解决随机最优控制问题时的好处，尤其是在实践中估计的分布出现错误时。
PDF2 years ago
MM关于策略梯度方法的收敛速度
研究无限时间折扣马尔可夫决策问题，并以策略空间的直接参数化研究投影策略梯度方法和一般类别的策略镜像下降方法的收敛速度，包括不需要熵或其他强凸正则化的自然策略梯度方法及投影 Q - 下降方法，并分析近似策略镜像下降方法的收敛速度和样本复杂性估
PDF2 years ago
AAAI部分可观测强化学习的分块顺序模型学习
本文提出了一种新的序列模型学习体系结构，旨在解决部分可观测的马可夫决策问题。该模型依靠自注意力实现分块序列模型，能够在部分可观测的环境下进行详细的序列学习，而不需要对模型学习中的输入数据进行复杂的块重构。同时，该模型通过使用自正规化重要抽样
PDF3 years ago
泛用效用的强化学习变分策略梯度方法
该研究通过引入泛函的方法，提出了一种新的策略梯度算法，用于解决马尔可夫决策问题中带通用上限效用函数的策略优化问题，并证明了其全局收敛性和收敛速度。
PDF4 years ago
AAAI使用 System 1 和 System 2 的强化学习和逆向强化学习
探讨个体行为目标的两种模型之间的区别，一种是理性演员模型，另一种是双系统模型，并在此基础上提出了一种新的基于 IRL 算法的方法来正确地推断双系统决策者的目标。
PDF6 years ago
一种基于李亚普诺夫函数的安全强化学习方法
提出了一种基于 Lyapunov 方法的安全强化学习算法，该算法可在保证行为策略安全的前提下，有效地平衡约束满足和性能优化。
PDF6 years ago
光滑参数化系统的贝叶斯最优控制：懒惰后验采样算法
本文研究了贝叶斯最优控制策略在平滑参数化马尔可夫决策问题中的应用，提出了一种基于后验采样的算法来缓解计算代价，并展示该算法在 Web 服务器控制应用中的高效性与稳定性。
PDF10 years ago
AAAI具有连续 Pareto 前沿逼近的多目标强化学习 —— 补充材料
使用梯度信息和基于策略的方法在多目标 MDP 中学习连续的 Pareto 边界序列，通过跟踪单个梯度上升运行来生成解决方案。
PDF10 years ago
解决马尔可夫决策问题的复杂性
本文总结了解决 Markov 决策问题及其算法运行时间的复杂性，并讨论了需要进一步研究实际算法来快速解决大问题的问题。同时，本文提出了一些基于 MDP 结构的替代分析方法，以鼓励未来的研究。
PDF11 years ago
弱耦合的马尔科夫决策问题的灵活分解算法
本文提出了两种新的方法来分解和解决大型马尔可夫决策问题（MDPs），分别为部分解耦方法和完全解耦方法。这些方法可以用于发现最优策略或近似最优策略，并提供了一种有效的知识传递框架。
PDF11 years ago