基于内在价值驱动的合作多智能体系统的强化学习
使用逆强化学习作为方法,使得人工智能代理人能够基于人类观察和互动隐式地获得文化敏感的价值观体系。通过在线虚拟世界中观察不同文化群体的行为,我们的实验结果显示出代理人能够通过学习特定文化群体的行为获得反映该群体行为的利他特征,且这一学习到的价值体系可以推广到需要进行利他判断的新场景。这是首次演示出人工智能代理人具备持续从观察和与人类互动中学习价值观和规范的能力,从而与其所操作的文化环境相适应。
Dec, 2023
通过对智能体控制完成的问题广泛应用增强学习方法进行研究。 基于发展心理学中的内在动机的概念,提出了一个系统性方法来确定内在动机的现有方法。该方法分为三类,分别为互补的内在奖励,探索策略和内在动机的目标。 具有世界模型和内在动机的代理的架构被描述出来,以帮助提高学习能力,同时探讨了在这一领域开发新技术的潜力。
Jan, 2023
本文介绍了发展性强化学习并提出了一个基于目标条件强化学习的计算框架,以解决本能动机技能获取问题,着重探讨了在自主系统中学习目标表示和优先级的现有方法,并讨论了在 intrinsically motivated skills acquisition 中的一些挑战。
Dec, 2020
该文探讨了将道德选择嵌入智能系统的重要性,提出了使用强化学习设计奖励结构以探究道德问题,并在三种社交困境游戏中分析了不同类型的道德如何影响智能体的行为,探讨了这些发现对于智能和混合人工智能社会的发展的影响。
Jan, 2023
该论文研究在多智能体环境下,独立强化学习代理人是否可以学习使用社会学习来提高性能,并发现通过在训练环境中强加约束条件和引入基于模型的辅助损失,可以获得广义的社会学习策略,使代理人能够发现不是通过单个代理人训练获得的复杂技能并且通过从新环境的专家那里获取线索在线适应新环境。
Oct, 2020
本研究提出了一种基于反强化学习和引导成本学习的离轨多智能体强化学习算法(IMARL),该算法可以解决复杂物理系统的集体动态问题,并在单智能体模型和多智能体模型下展现了优异的性能。
May, 2023
本文介绍了内在动机在深度强化学习中的作用,对不同内在动机的种类进行了归类并详细说明了各自的优点和局限性,并通过建立深度强化学习和内在动机模块相结合的框架,提出了建立更加完整的发展体系来应对大部分任务的方案。
Aug, 2019
本文提出了一种基于 SwarMDP 框架的针对分布式多智能体相互作用的逆向强化学习算法,在该框架中,我们证明了与智能体相关的值函数相等,通过引入一种新异构学习策略,我们证明了该框架能够有效地产生有意义的本地奖励模型。
Feb, 2016
本文提出了在多个智能体环境中,为每个 RL 智能体提供直接向其它智能体给予奖励的能力,并通过学习后的激励函数影响其它智能体,从而达到协作的目的。实验结果显示,在 challenging general-sum Markov games 中,相对于标准 RL 和对手建模代理,这种方法在寻找最优的分工方面取得了巨大的成功。
Jun, 2020
本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法,用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题,并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.
Nov, 2017