- 马尔可夫博弈中应对风险偏好的易处理均衡计算
通过赋予智能体风险厌恶和有限理性等人类决策要素,我们展示了一类风险厌恶量子响应均衡解(Risk-Averse Quantal Response Equilibria,RQE),不依赖于底层游戏结构而只依赖于智能体的风险厌恶程度和有限理性,在 - 具有熵正则化的独立自然策略梯度在游戏中的线性收敛
这项研究主要关注多智能体强化学习中的熵正则化独立自然策略梯度算法,通过引入熵正则化实现有界理性的决策,从而使智能体的行为接近纳什均衡,并通过实证结果验证了理论分析的可靠性。
- 高效优化 SOV 语言中的依存长度最小化
在 SOV 语言中,通过将短的前动词成分移到主动词旁边,以减少所有与主动词相关的前动词依赖的长度,从而解释了前动词成分排序决策,这表明了一种最低努力策略和有界理性在语言决策和语言进化中的作用。
- 多智能体强化学习学习和校准异质有界理性市场行为
在代理基模型中,我们提出了一种用于在多代理强化学习框架下表示异构处理受限代理的新技术,通过共享策略学习以及代理技能水平的分布,实现了从严格效用最大化到有界理性行为的过渡,并通过使用策略梯度来学习行为,通过在多个实例中验证,我们证明了该模型在 - 建模具有潜在推理预算的有界理性代理
我们研究了在未知计算限制下追求未知目标的代理人群建模问题。通过引入潜在推断预算模型(L-IBM),我们能够明确地建模代理人的计算限制,并通过一种迭代推断算法的运行时间来控制。我们通过三个建模任务展示了 L-IBM 在不确定决策时的能力优于 - 研究和改进人类和机器的推理能力
通过对大型语言模型(LLM)和人类的推理进行比较,本研究使用传统的认知心理学工具调查和比较它们的表现,结果显示大部分模型呈现了类似于人类具有错误倾向、启发式推理的推理错误,然而,深入比较发现最近的 LLM 版本在与人类推理的区别方面存在重要 - 有限感性合理性理论
本文提出一种不需要假定逻辑全知的有限理性归纳代理理论,要求有限理性归纳代理无限次地测试每个高效可计算的假设,然后遵循那些能够实现高奖励的假设。同时,探讨了不同有限理性归纳代理之间的策略交互并证明了有限理性归纳代理可以趋于何种策略的民间定理。
- 有限理性代理人的决策制定
通过将有限理性概念与信息论观点相结合,将其融入博弈论框架中以预测自己及其它机器人或人类邻近代理的行为以及在其计算限制下采取行动,模拟与实际实验都证明这种方法可以帮助机器人推理其他代理的不同智能水平并计算出合理的策略。
- 理性不专注委托人模型解决动态委托代理问题
该研究使用深度强化学习框架开发了 RIRL,解决了包括多个代理,多个信息通道在内的,有理性不足主体的复杂 PA 问题,通过分析经理 - 员工关系中的丰富经济现象,展示了有理性不足的主体决策与不同代理类型之间非平凡的关系
- KDD自动化机器学习、有限理性和合理元推理
这篇论文从有限理性的角度出发,将 AutoML 工具视为一个快速训练给定数据集模型的代理,并探讨了如何在元层面上寻找适当的 ML 管道的问题。
- AAAI具有自修改能力的有界理性智能体性能
我们调查了受限理性的代理如何随着时间的推移受到自我修改的负面影响,分析了其大小与代理的理性失误的类型和严重程度之间的关系,其中特别指出在选择非最佳行为的情况下可能会出现指数级错误对齐的情况。
- 基于有界理性的逃逸动力学
本文研究了在群体行为中有界理性在疏散过程中的重要作用,并探究了人类在极端情况下的行为。我们构建了一个元胞自动机模型以研究逃生动力学,并引入由异质信息引起的有界理性行为。在重复器动力学方法中,非平凡行为表现为人们对人口分布和速度的感知被减少到 - NIPS有限时间下的人类决策
通过统计力学和信息论的思想,实验测试了资源限制下有限理性决策的正式化预测,并将该模型参数分解为受试者预期效用函数和资源参数,结果显示人类在面对资源限制时逐渐回退到他们学习的先前选择模式。
- 信息论有界理性
本文提出了基于信息理论思想的有限理性理论,并提供了将自由能量函数作为表征有限理性决策的目标函数的概念上的理据。该文讨论了单步决策以及如何使用等价变换将其扩展到序贯决策,扩展后得到的类别决策问题非常广泛,包括古典决策规则等极限情况以及可信和风 - 投票均衡的局部优势理论
本文提出了一种考虑选民有限理性和可靠信息获取的策略性投票模型,该模型基于局部优势的行为启发式方法,建立了投票均衡,证明了其在广泛的局部优势关系中存在,经过大量的仿真实验证明,该模型的这种策略性投票的行为模式模拟了常见的人类投票模式,如杜弗格 - 有界理性动态用户均衡的制定、存在和计算,包括固定或内生的用户公差
本文提出了一种统一方法来建模同时路线和出发时间动态用户均衡,包括有限理性用户行为概念;我们提供了 VT-BR-DUE 的存在性和解决方案的表征,并提出了基于 VI 和 DVI 公式的三种计算算法,以评估解决方案质量,收敛性和计算效率。
- 影响力网络图:代理人信念和决策过程的表达形式
本文提出了一种名为影响网络图的紧凑、自然和高度表现力推理语言,用于推理代理人的信念和决策过程,通过实例展示 NIDs 可以用于描述冲突和循环信念结构以及某些形式的有限理性。
- NIPS变化环境中的有界理性决策
本文研究有限理性决策制定在考虑计算成本和期望效用之间进行权衡的过程,并探讨它与热力学系统中能量和熵之间相似的思路,同时使用非平衡热力学的概念量化这种过程中的效率低下和计算资源的关系。
- 信息论:连接有界理性博弈论和统计物理的桥梁
使用产品分布理论,该研究论文提供了游戏理论中的有限理性和统计物理学中联合概率分布的逼近问题的解决方案,并证明了这些主题本质上是同一的。