马尔可夫决策过程中因果信息和价值的统一贝尔曼方程
本文着眼于使用基于信念的奖励机制进行深度强化学习,提出了通过最大化任何凸函数的信念来实现近似的预测奖励,为深度强化学习的应用提供了新的解决方案,包括构建跟踪人员的传感器选择系统和学习时尚 MNIST 和 MNIST 数字分类的离散注意力模型等。
May, 2020
该研究旨在使用奖励函数来有效地做出明智的决策,通过提出抽象观测模型来降低计算成本并推导出期望信息论奖励函数的界限以及价值函数的界限,同时,提出了一种用于改善聚合方法的方法,实现了相同动作选择的计算时间减少。
Jan, 2022
这项研究探索了多个强化学习代理中的信息设计问题,提出了 Markov 信号博弈的概念,根据信号梯度和扩展服从约束开发算法,有效地解决了非稳定性和信息被忽略的挑战,并在各种混合动机任务中提供了更深入的计算经济学见解。
May, 2023
通过竞争分析的视角,我们量化分析了先见之明的未来回报信息的价值,并且得出了标准 RL 代理和具有部分未来回报展望的代理之间的比率。我们刻画了最坏情况下的回报分布,并得出了最坏情况下回报期望的精确比率。结果令人惊讶的是,所得比率与离线 RL 和无回报探索中的已知数量相关。我们还提供了给定最坏动态情况下的比率的严格界限。我们的结果涵盖了在行动之前观察即时回报到在交互开始之前观察所有回报之间的所有情况。
Mar, 2024
基于 Koopman 算子和马尔可夫决策过程(MDPs)的连接,发展了两种新的强化学习算法,以解决高维状态和非线性问题,构建了 “Koopman tensor” 来估计最优价值函数,通过 Koopman 张量对 Bellman 框架进行了转换,形成软值迭代和软演员 - 评论家(SAC)算法。
Mar, 2024
本文中,我们利用一种新的 Bellman 算子和相应的固定点,称为‘知识价值’,将期望未来回报和认知不确定性压缩成一个单一的值,从而实现了一种风险追求效用函数,并通过 Boltzmann 策略生成贝叶斯风险边界。
Jul, 2018
本研究提出了一种新的统一原理来实现信息寻求和奖励最大化,将主动推理与强化学习结合起来,不仅解决了各自的局限性,同时还具有超越传统方法的探索新颖奖励的性能。
Dec, 2022