不确定性决策:超越概率
本文介绍了一种鲁棒的任意学习方法,该方法结合了贝叶斯推断模型和计算稳健策略的方法,以不确定性马尔科夫决策过程(uMDPs)为基础,并通过实验验证了该方法的有效性。
May, 2022
本文介绍一种使用区间 Markov 决策过程的抽象方式,在连续状态的模型中捕捉随机噪声和不确定参数的 aleatoric 和 epistemic 不确定性,进行控制器的综合。经实验验证,考虑 epistemic 不确定性可以提高控制器的鲁棒性。
Oct, 2022
我们引入了一种简单而有效的方法来管理基于模型的强化学习中的风险,该方法使用了概率安全约束、在确知不确定性面前的乐观和在事件性不确定性面前的悲观以及一组随机神经网络的平衡。各种实验证明,不确定性的分离对于在不确定和安全关键的控制环境中使用数据驱动的 MPC 方法表现良好是至关重要的。
Sep, 2023
在序列决策中,部分可观测性和不确定性是常见问题,对于使用马尔可夫决策过程(MDPs)等形式模型造成阻碍。然而,在实践中,代理可以使用昂贵的传感器来测量环境并通过收集信息来解决部分可观测性问题。此外,不精确的转移函数可以捕捉模型不确定性。我们将这些概念结合起来,扩展 MDPs 为鲁棒主动测量 MDPs (RAM-MDPs)。我们提出了一种用于高效解决 RAM-MDPs 的主动测量启发式算法,并展示了模型不确定性可以让代理方采取更少的测量,这是违反直觉的。同时,我们提出了一种方法来抵消这种行为,只产生有限的额外成本。我们通过与几种基准方法进行实证比较,并展示了其卓越的可伸缩性和性能。
Dec, 2023
部分可观察马尔可夫决策过程(POMDPs)依赖于概率分布的精确性,而鲁棒 POMDPs 通过定义不精确的概率(称为不确定性集)来缓解这一问题。本研究通过展示:1)不同的不确定性集假设会影响最优策略和价值;2)RPOMDPs 具有部分可观察随机博弈(POSG)语义;以及 3)相同的 RPOMDP 在不同的假设下会导致语义上不同的 POSG,从而产生不同的策略和价值,从而扩展了 RPOMDP 的理论理解。这些新颖的 RPOMDPs 语义为广泛研究的 POSG 模型提供了实际结果,具体而言,我们展示了纳什均衡的存在性。最后,我们使用这些语义对现有的 RPOMDP 文献进行分类,澄清了这些现有研究在哪些不确定性假设下进行。
May, 2024
本文基于对 100 个决策问题数据集的回顾,发现许多问题具有关键性质和对应的决策策略,而采用多目标优化方法能够定量地进行投资决策。作者评估了这些性质的重要程度,得到了对应问题的信息量评分,使得在关键性质的指导下,决策问题的分析复杂度显著降低。
Jan, 2023
本研究主要关注序列决策算法中的不确定性和风险问题,通过探索规划和强化学习两种方法,尤其是面向基于模型算法的研究,旨在缓解 epistemic 和 aleatoric 不确定性问题。
Apr, 2023