马尔可夫决策过程符号表示法
本文提出了一种分布式决策方法,用于制造任务分配和基于条件的机器健康维护,并基于马尔可夫决策过程设计决策代理,以处理决策过程中涉及的不确定性。通过数值案例研究,证明该方法具有灵活性和实用性,并可以用人工智能学习成本参数。
Jan, 2024
本研究提出了一种基于代数决策图来表示价值函数和策略的 Markov 决策过程的值迭代算法,并将其应用于波西网络和 ADDs 表示的大规模 MDPs 中,相较于树形结构表示方式大幅降低了节点数量。
Jan, 2013
本文介绍了非确定性策略的新概念,以允许用户在决策过程中具有更多的灵活性,同时将决策限制为近似最优解。我们提供了两种算法来计算离散领域中的非确定性策略,并在一组合成和真实世界问题上研究了这些方法的输出和运行时间。在与人类被提示使用非确定性政策在 Web 导航任务中表现优异的实验中,我们展示了人类的帮助。
Jan, 2014
本文提出了一种新的框架 Configurable Markov Decision Processes (Conf-MDPs),以建立环境参数配置与学习代理之间的交互模型,并通过 Safe Policy-Model Iteration (SPMI) 算法,共同自适应优化策略与环境配置,实验结果表明该方法对提高学习策略的性能有益。
Jun, 2018
本文介绍了一种通过层次化结构和抽象 - 细化循环来加速分析马尔科夫决策过程,针对重复部分具有局部影响的概率程序,将类似的子程序抽象成参数化模板,在需要时对其进行详细分析,从而缓解著名的状态空间爆炸问题。
Jun, 2022
本文提出了一种基于神经常微分方程的变分推断算法,在 Markov 跳跃过程中通过学习神经连续时间表示来近似后验分布,相比于 Monte Carlo 和期望最大化方法具有更高效的性能。
May, 2023
研究了在转换概率分布和损失函数是对手选择并随时间变化时,如何学习具有有限状态和动作空间的马尔可夫决策过程问题。介绍了一种算法,如果转换概率满足均匀混合条件,则任何比较类中的策略的后悔增长为比赛轮数的平方根。只要比较类是多项式级别且我们可以为每个策略计算样本路径的期望值,我们的方法就是有效的。对于一般情况的后悔小的高效算法仍然是一个开放的问题。
Mar, 2013
本文综述了决策制定中的不确定性状态,并关注走在经典解释之外的不确定性,尤其是区分了可变性不确定性和认知不确定性。作者提供了多种解决方案,包括离散和连续模型,从正式验证、控制抽象到强化学习,以优秀解法应对认知不确定性,并列举和讨论了处理丰富类型不确定性时出现的重要挑战。
Mar, 2023
在处理非平稳环境的序贯决策问题中,我们提出了一种自适应蒙特卡洛树搜索算法,通过学习环境的更新动态来改进决策过程,减少过分悲观的行为并提高决策速度。
Jan, 2024