交互决策模型中多样化智能体行为
介绍人工智能领域中对于开发具有自主性并与其它实体有效交互的代理人的方法,重点讨论了不同建模方法及其基础方法学和前提条件,涉及方法学和实际应用,最后阐述了未来研究的潜在课题。
Sep, 2017
为了消除现有的管理机构建模中对受控代理的局部信息和选择动作的假设,该研究使用编码器 - 解码器结构从受控代理的局部信息中提取表示,并在训练期间使用管理代理的观察和动作来学习提取关于管理代理的表示,从而增强了管理代理的决策策略。提供了对合作、竞争和混合多代理环境的全面评估和消融研究,并表明我们的方法比不使用学习表示的基线方法产生更高的回报。
Jun, 2020
本文提出了一种基于 Self Other-Modeling 的学习方法,用于解决多智能体强化学习中的信息不完全问题,并可用于解决合作和敌对情境下的任务。
Feb, 2018
我们提出了一个用于多智能体系统中建模代理行为的泛化学习框架,将代理建模作为表示学习问题,并使用模仿学习和代理识别的算法进行无监督学习,以构建代理策略的表示形式。在具有挑战性的高维连续控制和通信合作环境中,我们经验证明该框架对于使用深度强化学习进行无监督聚类和策略优化的监督预测任务具有实用价值。
Jun, 2018
基于转移学习的强化学习智能体在发现给定任务的所有有用解决方案方面至关重要,以应对任务或转移动力学的变化。我们提出了一种简单的方法来发现给定任务的所有可能解决方案,以获得在转移设置中表现良好并能够快速适应任务或转移动力学变化的智能体。我们的方法迭代地学习一组策略,而每个后续策略都受到所有先前策略下的不太可能解决方案的约束。与以往的方法不同,我们的方法不需要学习额外的新颖性检测模型,并通过直接将约束融入行动选择和优化步骤中,避免了任务和新颖性奖励信号的平衡。
Oct, 2023
本文介绍了一种基于行为多样性的优化方法,该方法使用任务不可知的行为嵌入度量整个人群的行为流形的体积,并通过在线学习技术适应多样性程度,从而提高探索能力,而不会降低性能。
Feb, 2020
本文分析和证明了人类的行为偏见在安全系统的决策制定中会导致资源配置的次优模式,并提出了三种学习技术以增强多轮交互的决策制定过程,完成了多个实际系统的演示并阐明了决策模型的益处。
Nov, 2020
适应预测模型为基础的 AI 助手存在结构上的两个失败原因:自我暗示的错觉和预测 - 策略不一致。通过引入来自环境的反馈循环可以解决这两个问题,并验证了理论和实证分析的一致性。
Feb, 2024
多代理系统中,对智能机器代理进行适应性策略设计时,代理建模是至关重要的,通过代理建模可以理解其他代理的行为并提取有意义的策略表示,为增强自我代理的适应性策略提供帮助。这篇研究以对比学习为基础的代理建模方法(CLAM)只依赖于自我代理在训练和执行过程中的局部观察,可以实时生成一致且高质量的策略表示,且在合作和竞争多代理环境中取得了最先进的结果,突显了对比学习为基础的代理建模在增强式学习中的潜力。
Dec, 2023