容量有限认知及强化学习的速率失真理论

Oct, 2022

容量有限认知及强化学习的速率失真理论

On Rate-Distortion Theory in Capacity-Limited Cognition & Reinforcement Learning

Dilip Arumugam, Mark K. Ho, Noah D. Goodman, Benjamin Van Roy

TL;DR本文介绍了一种信息理论模型，它使用一个有限传输速率的通信通道作为决策代理行为的描述，并在此基础上研究了一种基于学习目标的容量有限的决策制定方法，为实现高效的学习算法提供了贝叶斯遗憾界的保证。

Abstract

Throughout the cognitive-science literature, there is widespread agreement that decision-making agents operating in the real world do so under limited information-processing capabilities and without access to unbounded cognitive or computational resources. Prior work has drawn inspiration from this fact and leveraged an →

capacity-limited decision making information-theoretic model bayesian regret bounds learning algorithms bounded rate constraint

发现论文，激发创造

有限认知负荷下的贝叶斯强化学习

生物和人工智能在决策过程中都受到信息处理能力的限制，因此一般的自适应行为理论应该考虑代理的学习历史、决策和能力约束之间的复杂交互。最近的计算机科学研究开始通过强化学习、贝叶斯决策制定和速率失真理论中的思想来澄清这些动态的形成规律。这项研究成果提出了基于能力限制的贝叶斯强化学习的规范框架，用于模拟处理约束对学习和行动选择的影响。本文对这一领域的最新算法和理论结果进行了简明审视，特别关注如何将这些思想应用于认知和行为科学中的问题。

May, 2023

信息论有界理性

本文提出了基于信息理论思想的有限理性理论，并提供了将自由能量函数作为表征有限理性决策的目标函数的概念上的理据。该文讨论了单步决策以及如何使用等价变换将其扩展到序贯决策，扩展后得到的类别决策问题非常广泛，包括古典决策规则等极限情况以及可信和风险敏感规划。

Dec, 2015

决定学习什么时的信息价值

探究决策代理如何在不完全了解环境的情况下，通过理性获取信息构建最优学习目标，同时基于信息导向采样（information-directed sampling）和速率失真理论（rate-distortion theory）提出了一种有效的学习目标设计和信息获取方法，通过实验证明了信息获取在决定学习内容方面的价值。

Oct, 2021

有限理性代理人的决策制定

通过将有限理性概念与信息论观点相结合，将其融入博弈论框架中以预测自己及其它机器人或人类邻近代理的行为以及在其计算限制下采取行动，模拟与实际实验都证明这种方法可以帮助机器人推理其他代理的不同智能水平并计算出合理的策略。

Oct, 2022

信息处理能力有限决策者中的抽象化

利用自由能决策框架与失真率理论建立决策与人工智能中抽象概念的关系与应用，得出由于信息处理能力的限制而引起的抽象现象。

Dec, 2013

有限时间下的人类决策

通过统计力学和信息论的思想，实验测试了资源限制下有限理性决策的正式化预测，并将该模型参数分解为受试者预期效用函数和资源参数，结果显示人类在面对资源限制时逐渐回退到他们学习的先前选择模式。

Oct, 2016

一种面向分层决策系统专业化的信息论在线学习原理

研究信息 - 理论有限理性的决策者组合问题，并提出了一种基于在线学习规则的问题空间的分区方案，旨在通过特定线性策略求解提高效率和减少成本。该模型适用于分类，回归，强化学习和自适应控制等领域。

Jul, 2019

具备调解者反馈的赌博机信息容量遗憾界限

这项研究针对中介反馈问题，提出了一个信息论度量，称为策略集能力，用于衡量策略集的复杂性。研究在对抗性和随机性环境中采用了经典的 EXP4 算法，提供了与策略集能力相关的新后悔上界，并且改进了相关的专家建议问题。此外，针对线性赌博反馈，我们还证明了一种不可能利用策略之间的相似性的下界，并且提供了一个与策略集的信息半径相关的全信息变种的后悔上界。

Feb, 2024

针对多种动作的汤普森取样的信息论分析

本论文提供了一种新的、基于编码的方法，用于证明 Russo 和 Van RoyBayesian 遗憾界制度对先验不确定性的依赖性，其通过熵以及由于动作数量的不断增加，熵可以变得无限大。通过引入率失真的概念，建立了新的界，从而通过信息理论的方法来推导线性选择组失策问题的几乎最优界，并提供了逻辑选择组失策问题的一个界，比以前提供的界显著改善。

May, 2018

逐步强化学习

该论文讨论了如何设计数据高效的强化学习智能体，提供了信息获取、信息表示和信息保留等方面的原则指导，并通过简单智能体的计算结果强调了数据效率的重要性。

Mar, 2021