自适应信息信念空间规划

Jan, 2022

Adaptive Information Belief Space Planning

Moran Barenboim, Vadim Indelman

TL;DR该研究旨在使用奖励函数来有效地做出明智的决策，通过提出抽象观测模型来降低计算成本并推导出期望信息论奖励函数的界限以及价值函数的界限，同时，提出了一种用于改善聚合方法的方法，实现了相同动作选择的计算时间减少。

Abstract

Reasoning about uncertainty is vital in many real-life autonomous systems. However, current state-of-the-art planning algorithms cannot either reason about →

uncertainty planning algorithms reward functions information-theoretic computational costs

发现论文，激发创造

基于模型的贝叶斯探索

本文论述的是如何在强化学习的算法中基于概率分布估算每个行动的信息价值，并选择能够平衡探索与利用的最佳行动。

Jan, 2013

自适应概率信赖约束下的连续高维信念空间规划

研究了基于信念空间规划的在线决策问题，在信息收集等场景下，介绍了一种自适应的方法来寻求最大可行回报，应用这种方法可以在保证准确率的前提下显著加速在线决策过程，并进行了大量现实模拟来验证此方法的优越性。

Feb, 2023

信息论有界理性

本文提出了基于信息理论思想的有限理性理论，并提供了将自由能量函数作为表征有限理性决策的目标函数的概念上的理据。该文讨论了单步决策以及如何使用等价变换将其扩展到序贯决策，扩展后得到的类别决策问题非常广泛，包括古典决策规则等极限情况以及可信和风险敏感规划。

Dec, 2015

带有性能保证的 ρ-POMDP 中的测量简化

该研究论文介绍了一种有效的决策制定方法，通过对高维观测空间进行划分，并利用这种划分提出了分析边界，以求得期望的信息论奖励，进而在保证性能的同时实现高效规划。该方法在高斯置信度上表现出至少 4 倍的理论性能改善，在模拟和实际实验中也相对其他先进算法显示了大幅沙盘速度提升。

Sep, 2023

在计算资源限制下推理信念和行动

讨论在计算能力不足时使用替代逼近过程和启发式方法以及使用用户效用结构对推理进行量身定制来平衡部分结果的成本和收益的应用决策理论来解决困难问题的解决方案。

Mar, 2013

通过预测奖励最大化部分可观测环境中的信息增益

本文着眼于使用基于信念的奖励机制进行深度强化学习，提出了通过最大化任何凸函数的信念来实现近似的预测奖励，为深度强化学习的应用提供了新的解决方案，包括构建跟踪人员的传感器选择系统和学习时尚 MNIST 和 MNIST 数字分类的离散注意力模型等。

May, 2020

强化学习驱动的信息获取：量子概率方法

本文讨论交互式信息检索中的信息搜索行为，并将其视为一种基于强化学习的任务，使用量子力学的数学形式来描述和建模信息搜索者的不确定行为，为信息搜索者的行为提供指导。

Aug, 2020

在局部观测下，结合信息寻求探索和奖励最大化：统一的连续状态和行动空间推断

本研究提出了一种新的统一原理来实现信息寻求和奖励最大化，将主动推理与强化学习结合起来，不仅解决了各自的局限性，同时还具有超越传统方法的探索新颖奖励的性能。

Dec, 2022

马尔可夫决策过程中因果信息和价值的统一贝尔曼方程

研究人工智能代理和其环境的交互，探讨了在信息理论限制下如何通过强化学习算法使代理能够在无限时间范围内获得最大化的预期回报。首次提出了环境和代理之间因果信息的贝尔曼递归方程，与值函数的贝尔曼递归方程结合使用。

Mar, 2017

有限理性代理人的决策制定

通过将有限理性概念与信息论观点相结合，将其融入博弈论框架中以预测自己及其它机器人或人类邻近代理的行为以及在其计算限制下采取行动，模拟与实际实验都证明这种方法可以帮助机器人推理其他代理的不同智能水平并计算出合理的策略。

Oct, 2022