该研究提出了一种通用方法,允许代理根据交互历史推断出行为类型及其对应的概率分布,维护每种行为类型的参数估计,并通过不断更新参数估计来提高性能。
Jun, 2019
本文研究了多智能体应用中利用学习算法计算其他代理行为的后验概率与先验概率,我们发现先验概率对该方法的长期性能可能有显著影响,且影响程度取决于计划范围深度,自动方法可用于计算一致的先验概率,因此可以自动消除先验概率作为手动参数的需求。
Jul, 2019
本文提供了对于一个多智能体系统,当一个智能体需要在不事先知道其他智能体如何行动的情况下协调行动时,如何计算潜在策略的后验信念,并提出两个关键设计参数的理论指导。
本文简明扼要地综述了人类行为量化模型领域中最重要的两个方法:基于探索和反馈学习模型或策略的技术以及直接模拟人类推理机制(思想和偏见)而无需通过试错法进行学习。
May, 2022
本文提出了一种基于频率假设检验的算法,用于构建多智能体的行为假设并且在交互进程中学习其分布,以提高准确性和可伸缩性,同时也可以控制计算成本。
本文提出一种不需要假定逻辑全知的有限理性归纳代理理论,要求有限理性归纳代理无限次地测试每个高效可计算的假设,然后遵循那些能够实现高奖励的假设。同时,探讨了不同有限理性归纳代理之间的策略交互并证明了有限理性归纳代理可以趋于何种策略的民间定理。
Jul, 2023
文章提出了一个解决全面事实问题(grain of truth problem)的方法,其中 Bayesian agent 学习预测其他代理的策略,自适应 Thompson sampling 收敛于任意未知可计算多代理环境中的 ε-Nash 均衡。
Sep, 2016
本研究提出了一种基于信念空间的策略学习模型,可以在测试时间解码和适应新颖的规约,从而显著提高各种策略池中的特定反应的搜索和训练,同时增强智能体规约的可解释性和可解释性。
Jun, 2022
本文开发了一种理论,可以在广义第二价格拍卖中从观察到的数据中推断出玩家估值,而不需要依赖于纳什均衡的假设,并展示了如何在一些 no-regret learning 算法的假设下推断玩家的价值,这对于在拍卖数据上测试任何学习理论行为模型前的重要步骤。
May, 2015
该研究提出类型理论是理解人类如何进行新颖问题思考、解释和猜测的核心组成部分,并以三个实证性观察来证明这一观点:学习和推论的自适应性限制、人们在不可能性和不太可能性之间区分的能力以及人类在不同层次的抽象概念上进行推理的能力。
Oct, 2022