信念样本对于社会学习而言至关重要
多方合作中的信息交流对于高效完成任务至关重要。本文通过活跃推理,将通信视为自由能最小化代理之间共享信念,其中一个代理的信念被转化为另一个代理的观察模式。然而,将信念转化为观察的最佳方法仍然是一个开放的问题。本文提出了一种替代的信念共享策略,以缓解回音室和自我怀疑等问题。
Jul, 2024
如何在个人的隐私需求和安全顾虑中实现个体之间的信息交流以彼此学习?通过采用严格的统计担保,基于差分隐私(DP)控制信息泄露,我们使得保护个人隐私和实现高效社会学习成为可能。我们的研究结果揭示了在质量、学习准确性、通信成本和个体隐私保护水平之间在有限和无限信号环境下的权衡性质。
Feb, 2024
本研究提出了一种名为 PBL 的算法,用于在协作游戏中进行隐式信息传递,通过使用先验信仰模块和策略模块来完成通信的前半部分和后半部分,并通过辅助奖励激励代理通过行动来进行信息传递,实验表明此辅助奖励有效且易于推广。
Oct, 2018
本文通过结合不同的非语言交流提示,设计了一种能够描绘、学习和推断代理人心理状态的方法,并以此为基础开发了一种新型的能够跟踪和预测所有心理状态的能级能量模型,从而提供了一种基于非语言交流和信念动态的社交事件描述和视频总结方法。
Apr, 2021
人工智能代理在现实世界中的部署需要与人类(以及其他异构的 AI 代理)可靠地合作。为了提供成功合作的形式化保证,我们必须对合作伙伴代理的行为做一些合理的假设。这项工作研究了在一个有限重复的、两个玩家的一般化总和矩阵游戏中与一个代理人群合作的问题,通过个体理性学习者的假设和在某个 Pareto 有效均衡策略下高概率实现至少与该策略相同效用,我们证明了这些假设本身不足以保证与目标人群成员的零 - shot 合作。因此,我们考虑了通过先前观察到的人群成员相互作用来学习与这样的人群合作的策略问题,并给出了学习有效合作策略所需样本数量的上限和下限。最重要的是,我们证明了这些界限可以比通过一种 “天真” 的问题简化到模仿学习中产生的界限更强。
Jun, 2024
研究了具有有限信息量的私有信号和关于决策者的历史信息的决策规则下,智能体决策是否会收敛到真实状态的条件,并发现在几乎肯定的情况下无法进行学习,在一定概率下进行学习的决策规则存在,而基于贴现收益的广义特殊博弈中,即使众多神经元共同决策,也无法保证学习。
Sep, 2012