自适应信息信念空间规划
研究了基于信念空间规划的在线决策问题,在信息收集等场景下,介绍了一种自适应的方法来寻求最大可行回报,应用这种方法可以在保证准确率的前提下显著加速在线决策过程,并进行了大量现实模拟来验证此方法的优越性。
Feb, 2023
本文提出了基于信息理论思想的有限理性理论,并提供了将自由能量函数作为表征有限理性决策的目标函数的概念上的理据。该文讨论了单步决策以及如何使用等价变换将其扩展到序贯决策,扩展后得到的类别决策问题非常广泛,包括古典决策规则等极限情况以及可信和风险敏感规划。
Dec, 2015
该研究论文介绍了一种有效的决策制定方法,通过对高维观测空间进行划分,并利用这种划分提出了分析边界,以求得期望的信息论奖励,进而在保证性能的同时实现高效规划。该方法在高斯置信度上表现出至少 4 倍的理论性能改善,在模拟和实际实验中也相对其他先进算法显示了大幅沙盘速度提升。
Sep, 2023
讨论在计算能力不足时使用替代逼近过程和启发式方法以及使用用户效用结构对推理进行量身定制来平衡部分结果的成本和收益的应用决策理论来解决困难问题的解决方案。
Mar, 2013
本文着眼于使用基于信念的奖励机制进行深度强化学习,提出了通过最大化任何凸函数的信念来实现近似的预测奖励,为深度强化学习的应用提供了新的解决方案,包括构建跟踪人员的传感器选择系统和学习时尚 MNIST 和 MNIST 数字分类的离散注意力模型等。
May, 2020
本文讨论交互式信息检索中的信息搜索行为,并将其视为一种基于强化学习的任务,使用量子力学的数学形式来描述和建模信息搜索者的不确定行为,为信息搜索者的行为提供指导。
Aug, 2020
本研究提出了一种新的统一原理来实现信息寻求和奖励最大化,将主动推理与强化学习结合起来,不仅解决了各自的局限性,同时还具有超越传统方法的探索新颖奖励的性能。
Dec, 2022
研究人工智能代理和其环境的交互,探讨了在信息理论限制下如何通过强化学习算法使代理能够在无限时间范围内获得最大化的预期回报。首次提出了环境和代理之间因果信息的贝尔曼递归方程,与值函数的贝尔曼递归方程结合使用。
Mar, 2017
通过将有限理性概念与信息论观点相结合,将其融入博弈论框架中以预测自己及其它机器人或人类邻近代理的行为以及在其计算限制下采取行动,模拟与实际实验都证明这种方法可以帮助机器人推理其他代理的不同智能水平并计算出合理的策略。
Oct, 2022