强大的代理学习因果世界模型
研究探索通过推断环境因果结构以收集相关干预数据为手段,建立捕捉传感器运动交互背后真实物理机制的世界模型对于提高深度学习、强化学习、迁移学习和泛化能力至关重要。
Aug, 2022
研究通过元强化学习是否可以发现因果推理,在这项研究中,我们训练了一个递归神经网络对包含因果结构的一系列问题进行无模型强化学习,证明了该代理可以在新的情况下进行因果推理,从观测数据中得出因果推断结果以及进行反事实预测,我们提出这种学习方法也可以在复杂的推理场景中进行因果推理,同时该工作还提供了新的强化学习结构探索策略。
Jan, 2019
从观察中学习表示纯粹关注于学习一种对预测模型有益的低维紧凑表示。本文开发了一种学习方法,通过使用互信息度量对学习过程进行正则化,从观察数据中学习这种表示,根据假设的因子因果图。我们从理论和实证角度证明,使用学习的因果表示训练的模型在对抗攻击和分布转移方面比基准模型更强健。
Oct, 2023
本文提出了第一个正式的有关案例的因果定义 - 粗略地说,机构是指如果其行动以不同的方式影响世界将适应其策略的系统。从此,我们推导出了第一个通过实证数据发现代理的因果发现算法,并提供了在因果模型和博弈理论影响图之间进行转换的算法。我们通过解决一些由于错误的因果建模导致的先前混乱来演示我们的方法。
Aug, 2022
复杂适应性代理通过解决需要理解因果信息的问题来实现其目标;因果认知研究并描述了人类和非人类动物在因果学习和推理方面的主要特征,提供了一个概念框架,可以根据任务的因果理解水平来讨论认知表现;本研究将机器学习和强化学习与因果认知相结合,构建了一个统一的因果认知框架,从而提供了动物认知研究的计算角度,并为人工智能中的因果强化学习算法的开发提供了新的视角。
Jun, 2024
通过将探索驱动的学习概念性地统一监督学习和强化学习之间的探索驱动学习,我们提出了广义探索问题,以突出不同学习设置之间的关键相似之处和开放研究挑战,广义探索是用于维护开放式学习过程的必要目标。
Nov, 2022
本篇论文介绍了一种基于 agent assessment module 的 AI 系统执行高级指令序列并回答用户问题的方法,通过不同类别的查询来比较这种方法的计算要求和正确模型的学习所需的努力,并介绍了动态因果决策网络来捕捉 STRIPS-like 领域的因果结构。
Aug, 2021
本文提出了一种名为 WAKER 的基于 minimax 遗憾目标的算法,可在 reward-free 环境下有效地学习鲁棒的世界模型,以提高不同环境下的机器人性能。
Jun, 2023