容量有限认知及强化学习的速率失真理论
生物和人工智能在决策过程中都受到信息处理能力的限制,因此一般的自适应行为理论应该考虑代理的学习历史、决策和能力约束之间的复杂交互。最近的计算机科学研究开始通过强化学习、贝叶斯决策制定和速率失真理论中的思想来澄清这些动态的形成规律。这项研究成果提出了基于能力限制的贝叶斯强化学习的规范框架,用于模拟处理约束对学习和行动选择的影响。本文对这一领域的最新算法和理论结果进行了简明审视,特别关注如何将这些思想应用于认知和行为科学中的问题。
May, 2023
本文提出了基于信息理论思想的有限理性理论,并提供了将自由能量函数作为表征有限理性决策的目标函数的概念上的理据。该文讨论了单步决策以及如何使用等价变换将其扩展到序贯决策,扩展后得到的类别决策问题非常广泛,包括古典决策规则等极限情况以及可信和风险敏感规划。
Dec, 2015
探究决策代理如何在不完全了解环境的情况下,通过理性获取信息构建最优学习目标,同时基于信息导向采样(information-directed sampling)和速率失真理论(rate-distortion theory)提出了一种有效的学习目标设计和信息获取方法,通过实验证明了信息获取在决定学习内容方面的价值。
Oct, 2021
通过将有限理性概念与信息论观点相结合,将其融入博弈论框架中以预测自己及其它机器人或人类邻近代理的行为以及在其计算限制下采取行动,模拟与实际实验都证明这种方法可以帮助机器人推理其他代理的不同智能水平并计算出合理的策略。
Oct, 2022
通过统计力学和信息论的思想,实验测试了资源限制下有限理性决策的正式化预测,并将该模型参数分解为受试者预期效用函数和资源参数,结果显示人类在面对资源限制时逐渐回退到他们学习的先前选择模式。
Oct, 2016
研究信息 - 理论有限理性的决策者组合问题,并提出了一种基于在线学习规则的问题空间的分区方案,旨在通过特定线性策略求解提高效率和减少成本。该模型适用于分类,回归,强化学习和自适应控制等领域。
Jul, 2019
这项研究针对中介反馈问题,提出了一个信息论度量,称为策略集能力,用于衡量策略集的复杂性。研究在对抗性和随机性环境中采用了经典的 EXP4 算法,提供了与策略集能力相关的新后悔上界,并且改进了相关的专家建议问题。此外,针对线性赌博反馈,我们还证明了一种不可能利用策略之间的相似性的下界,并且提供了一个与策略集的信息半径相关的全信息变种的后悔上界。
Feb, 2024
本论文提供了一种新的、基于编码的方法,用于证明 Russo 和 Van RoyBayesian 遗憾界制度对先验不确定性的依赖性,其通过熵以及由于动作数量的不断增加,熵可以变得无限大。通过引入率失真的概念,建立了新的界,从而通过信息理论的方法来推导线性选择组失策问题的几乎最优界,并提供了逻辑选择组失策问题的一个界,比以前提供的界显著改善。
May, 2018