马尔可夫决策过程中因果信息和价值的统一贝尔曼方程

Mar, 2017

马尔可夫决策过程中因果信息和价值的统一贝尔曼方程

A Unified Bellman Equation for Causal Information and Value in Markov Decision Processes

Stas Tiomkin, Naftali Tishby

TL;DR研究人工智能代理和其环境的交互，探讨了在信息理论限制下如何通过强化学习算法使代理能够在无限时间范围内获得最大化的预期回报。首次提出了环境和代理之间因果信息的贝尔曼递归方程，与值函数的贝尔曼递归方程结合使用。

Abstract

The interaction between an artificial agent and its environment is bi-directional. The agent extracts relevant information from the environment, and affects the environment by its actions in return to accumulate high expected reward. Standard →

artificial agent environment interaction reinforcement learning information-theoretic limitations bellman-type recursive equation

发现论文，激发创造

基于模型的贝叶斯探索

本文论述的是如何在强化学习的算法中基于概率分布估算每个行动的信息价值，并选择能够平衡探索与利用的最佳行动。

Jan, 2013

通过预测奖励最大化部分可观测环境中的信息增益

本文着眼于使用基于信念的奖励机制进行深度强化学习，提出了通过最大化任何凸函数的信念来实现近似的预测奖励，为深度强化学习的应用提供了新的解决方案，包括构建跟踪人员的传感器选择系统和学习时尚 MNIST 和 MNIST 数字分类的离散注意力模型等。

May, 2020

自适应信息信念空间规划

该研究旨在使用奖励函数来有效地做出明智的决策，通过提出抽象观测模型来降低计算成本并推导出期望信息论奖励函数的界限以及价值函数的界限，同时，提出了一种用于改善聚合方法的方法，实现了相同动作选择的计算时间减少。

Jan, 2022

多智能体强化学习中的信息设计

这项研究探索了多个强化学习代理中的信息设计问题，提出了 Markov 信号博弈的概念，根据信号梯度和扩展服从约束开发算法，有效地解决了非稳定性和信息被忽略的挑战，并在各种混合动机任务中提供了更深入的计算经济学见解。

May, 2023

通过恒稳调节驱动好奇心的强化学习

本论文提出了一种基于信息理论和动物本能的好奇奖励方法，并通过实验证明了该方法对增强学习代理在复杂环境中与连续行动交互中提高信息增益的额外调节作用。

Jan, 2018

强化学习中奖励展望的价值

通过竞争分析的视角，我们量化分析了先见之明的未来回报信息的价值，并且得出了标准 RL 代理和具有部分未来回报展望的代理之间的比率。我们刻画了最坏情况下的回报分布，并得出了最坏情况下回报期望的精确比率。结果令人惊讶的是，所得比率与离线 RL 和无回报探索中的已知数量相关。我们还提供了给定最坏动态情况下的比率的严格界限。我们的结果涵盖了在行动之前观察即时回报到在交互开始之前观察所有回报之间的所有情况。

Mar, 2024

强化学习效率提升的因果影响检测

本文研究如何通过对强化学习智能体在特定情况下的影响力进行测量，结合条件互信息将此度量值引入强化学习算法，提高机器人操作任务中的数据效率。

Jun, 2021

Koopman 辅助强化学习

基于 Koopman 算子和马尔可夫决策过程（MDPs）的连接，发展了两种新的强化学习算法，以解决高维状态和非线性问题，构建了 “Koopman tensor” 来估计最优价值函数，通过 Koopman 张量对 Bellman 框架进行了转换，形成软值迭代和软演员 - 评论家（SAC）算法。

Mar, 2024

具有遗憾界限的变分贝叶斯强化学习

本文中，我们利用一种新的 Bellman 算子和相应的固定点，称为‘知识价值’，将期望未来回报和认知不确定性压缩成一个单一的值，从而实现了一种风险追求效用函数，并通过 Boltzmann 策略生成贝叶斯风险边界。

Jul, 2018

在局部观测下，结合信息寻求探索和奖励最大化：统一的连续状态和行动空间推断

本研究提出了一种新的统一原理来实现信息寻求和奖励最大化，将主动推理与强化学习结合起来，不仅解决了各自的局限性，同时还具有超越传统方法的探索新颖奖励的性能。

Dec, 2022