假设行为中的信仰和真相

Jul, 2015

Belief and Truth in Hypothesised Behaviours

Stefano V. Albrecht, Jacob W. Crandall, Subramanian Ramamoorthy

TL;DR研究了在多代理系统中如何利用贝叶斯学习来控制单一代理，从而完成任务并最大化收益，包括如何将证据纳入概率信念中，如何影响长期利润的先验信念以及如何检验推断类型的正确性。

Abstract

There is a long history in game theory on the topic of Bayesian or "rational" learning, in which each player maintains beliefs over a set of alternative behaviours, or types, for the other players. This idea has

bayesian learning game theory artificial intelligence types task completion

发现论文，激发创造

推断虚拟代理行为及其参数

该研究提出了一种通用方法，允许代理根据交互历史推断出行为类型及其对应的概率分布，维护每种行为类型的参数估计，并通过不断更新参数估计来提高性能。

Jun, 2019

关于先验信念对政策类型实际影响的实证研究

本文研究了多智能体应用中利用学习算法计算其他代理行为的后验概率与先验概率，我们发现先验概率对该方法的长期性能可能有显著影响，且影响程度取决于计划范围深度，自动方法可用于计算一致的先验概率，因此可以自动消除先验概率作为手动参数的需求。

Jul, 2019

多智能体系统中基于最佳反应策略类型学习的收敛性和最优性

本文提供了对于一个多智能体系统，当一个智能体需要在不事先知道其他智能体如何行动的情况下协调行动时，如何计算潜在策略的后验信念，并提出两个关键设计参数的理论指导。

Jul, 2019

人类行为建模第一部分 -- 学习和信念方法

本文简明扼要地综述了人类行为量化模型领域中最重要的两个方法：基于探索和反馈学习模型或策略的技术以及直接模拟人类推理机制（思想和偏见）而无需通过试错法进行学习。

May, 2022

你在做我认为你在做的事情吗？批评不确定代理模型

本文提出了一种基于频率假设检验的算法，用于构建多智能体的行为假设并且在交互进程中学习其分布，以提高准确性和可伸缩性，同时也可以控制计算成本。

Jul, 2019

有限感性合理性理论

本文提出一种不需要假定逻辑全知的有限理性归纳代理理论，要求有限理性归纳代理无限次地测试每个高效可计算的假设，然后遵循那些能够实现高奖励的假设。同时，探讨了不同有限理性归纳代理之间的策略交互并证明了有限理性归纳代理可以趋于何种策略的民间定理。

Jul, 2023

真理粒度问题的正式解决方案

文章提出了一个解决全面事实问题（grain of truth problem）的方法，其中 Bayesian agent 学习预测其他代理的策略，自适应 Thompson sampling 收敛于任意未知可计算多代理环境中的 ε-Nash 均衡。

Sep, 2016

合作人工智能的广义信念

本研究提出了一种基于信念空间的策略学习模型，可以在测试时间解码和适应新颖的规约，从而显著提高各种策略池中的特定反应的搜索和训练，同时增强智能体规约的可解释性和可解释性。

Jun, 2022

学习代理的计量经济学

本文开发了一种理论，可以在广义第二价格拍卖中从观察到的数据中推断出玩家估值，而不需要依赖于纳什均衡的假设，并展示了如何在一些 no-regret learning 算法的假设下推断玩家的价值，这对于在拍卖数据上测试任何学习理论行为模型前的重要步骤。

May, 2015

类型理论在人类学习和推理中的应用

该研究提出类型理论是理解人类如何进行新颖问题思考、解释和猜测的核心组成部分，并以三个实证性观察来证明这一观点：学习和推论的自适应性限制、人们在不可能性和不太可能性之间区分的能力以及人类在不同层次的抽象概念上进行推理的能力。

Oct, 2022