信息论界有界理性的对抗解释

AAAIApr, 2014

An Adversarial Interpretation of Information-Theoretic Bounded Rationality

Pedro A. Ortega, Daniel D. Lee

TL;DR将代理人的自由能量最大化作为一个游戏过程，其中一个虚拟的对手通过支付成本中产生要素，以降低决策者的回报，以便使决策者对其选择不感兴趣，从而紧密联系了自由能量最优化与博弈论。

Abstract

Recently, there has been a growing interest in modeling planning with information constraints. Accordingly, an agent maximizes a regularized expected utility known as the free energy, where the regularizer is given by the information divergence from a prior to a posterior policy. While

information constraints free energy optimization adversarial environments risk-sensitive control game theory

发现论文，激发创造

信息论有界理性

本文提出了基于信息理论思想的有限理性理论，并提供了将自由能量函数作为表征有限理性决策的目标函数的概念上的理据。该文讨论了单步决策以及如何使用等价变换将其扩展到序贯决策，扩展后得到的类别决策问题非常广泛，包括古典决策规则等极限情况以及可信和风险敏感规划。

Dec, 2015

热力学作为一种考虑信息处理成本的决策理论

该论文提出了一个信息论的有界理性决策模型，其中决策者在预期效用和信息处理成本之间进行权衡，被视为物理状态发生变化时的热力学机器，行为受制于自由能泛函。当忽略计算成本时，该模型还原为最大化预期效用原则。

Apr, 2012

用于赌博游戏的近似信息最大化

基于熵最大化和自由能最小化的原理，提出一种新类的 Bandit 算法，通过最大化系统内关键变量的信息量近似来选择行动，该方法在经典 Bandit 设置中表现出较强的性能，并在高斯奖励的二臂 Bandit 问题上证明了渐近最优性，为进一步研究信息最大化方法在多臂 Bandit 问题中的应用提供了有效方法。

Oct, 2023

计算理性化：逆平衡问题

该文介绍了一种在多智能体领域应用的、基于逆优化控制、遗憾和最大熵原理的方法，用于预测与推广多智能体的行为，并恢复其奖励函数。

Mar, 2011

博弈论、最大熵、最小差异和鲁棒贝叶斯决策理论

本文研究了极大熵和最小化最坏期望损失之间的密切关系，证明了这两个问题是对偶的，并提供了将一种问题的解用于另一种问题的方法，同时扩展了熵的一般定义，引入了分布差异的最小化概念并建立了相应的理论。

Oct, 2004

期望自由能的重新框架：四种表述和一个统一

通过对单个根期望自由能定义的问题进行形式化，本文研究了两个设置，其中每个设置都有其自己的根期望自由能定义。在第一个设置中，尚未提出任何关于期望自由能的正当化，但所有公式都可以从中恢复出来。然而，在这个设置中，代理不能对观测进行任意先验偏好，只有与生成模型的似然映射相兼容的观测先验偏好的有限类才能赋予。在第二个设置中，已经知道根期望自由能定义的正当化，但该设置仅涵盖两种表达方式，即风险加上不确定性和熵加期望能量的表达方式。

Feb, 2024

变化环境中的有界理性决策

本文研究有限理性决策制定在考虑计算成本和期望效用之间进行权衡的过程，并探讨它与热力学系统中能量和熵之间相似的思路，同时使用非平衡热力学的概念量化这种过程中的效率低下和计算资源的关系。

Dec, 2013

自适应信息信念空间规划

该研究旨在使用奖励函数来有效地做出明智的决策，通过提出抽象观测模型来降低计算成本并推导出期望信息论奖励函数的界限以及价值函数的界限，同时，提出了一种用于改善聚合方法的方法，实现了相同动作选择的计算时间减少。

Jan, 2022

对抗风险的多种表现

本文通过应用最优传输、鲁棒统计、泛函分析和博弈理论等技术工具，重审了 adversarial risk 的定义并探究了其与 adversarial robustness 的等价关系，证明了在对抗分类问题中存在纯 Nash 均衡，并通过最小化两个分布在无限 - Wasserstein 不确定性集之间的贝叶斯误差来描述 adversarial risk。

Jan, 2022

利用信息正则化学会共享与隐藏意图

本研究提出一种信息理论规则化方法，以学习多智能体强化学习中的合作和竞争策略，结果在两个简单的非对称信息博弈中表明，使用我们提出的方法学习到的合作（竞争）策略会带来更多（更少）的奖励。

Aug, 2018