本研究展示了一种探测自学习算法在训练过程中内部概念的方法,以国际象棋游戏代理为例进行了演示,此方法适用于没有大量计算资源或机器学习模型的研究团体。
Nov, 2022
我们提出了一个用于多智能体系统中建模代理行为的泛化学习框架,将代理建模作为表示学习问题,并使用模仿学习和代理识别的算法进行无监督学习,以构建代理策略的表示形式。在具有挑战性的高维连续控制和通信合作环境中,我们经验证明该框架对于使用深度强化学习进行无监督聚类和策略优化的监督预测任务具有实用价值。
Jun, 2018
深度强化学习中,奖励稀疏性、难以归因的信用分配以及错位等问题使得深度强化学习代理无法学习到最优策略。为了解决这个问题,我们引入了连续概念瓶颈代理(SCoBots),通过整合连续的概念瓶颈层使整个决策过程变得透明,使得领域专家能够理解和纠正模型的错误行为,并证明 SCoBots 能够实现更好的与人类一致的强化学习。通过在 Pong 等视频游戏中的应用,SCoBots 帮助我们识别和解决了错位问题。
Jan, 2024
使用程序合成方法对深度强化学习代理进行模仿,以了解其学习的概念和决策过程。
Sep, 2023
本文概述了自主智能体的研究领域和目标,围绕多智能体强化学习、协作、与其他自主智能体的互动、基于内部动机的学习、课程学习等问题提出了自主智能体的开放性问题。
Aug, 2022
本研究通过一个协同迷宫游戏设计,用深度强化学习技术实现了人机共同协作。研究结果证明人机共同协作相互影响,在时间的推进下不断适应并建立起相应策略,这为人机智能的协作提供了可行的方案。
Mar, 2020
该论文介绍了利用深度网络来模拟人类心智状态,并在多智能体环境中进行信念预测和强化学习的初步实验结果。
Jul, 2023
本论文提出一种基于无标注训练数据的方法,结合深度动作条件视频预测模型和模型预测控制,使真实机器人能够进行非抓取操作,比如推动物体,并且可以处理训练过程中没有出现过的新物体。
Oct, 2016
该论文提出了一种基于强化学习的框架,用于学习代理人策略的潜在表示,通过学习潜在的动态关系,以影响其他代理人,推动其向适合于协同适应的策略方向发展,该方法在多个模拟领域和现实世界的空气曲棍球比赛中表现优异。
Nov, 2020
利用 Gärdenfors 的概念空间框架,基于属性分解的方法提高了人工智能代理的知识表示,并设计了一种基于模糊逻辑的类别归属判定模型;此方法在制造领域的应用能够有效提高人工智能代理的可解释性和可信度。
May, 2023