强大的代理学习因果世界模型

ICLRFeb, 2024

Robust agents learn causal world models

Jonathan Richens, Tom Everitt

TL;DR任何能够满足大量分布变化下后悔边界的代理必须学习数据生成过程的近似因果模型，对于最优代理而言，该模型将趋近于真实的因果模型。这一结果对于包括迁移学习和因果推断在内的几个研究领域具有重要影响。

Abstract

It has long been hypothesised that causal reasoning plays a fundamental role in robust and general intelligence. However, it is not known if agents must learn →

causal reasoning general intelligence causal models regret bound transfer learning

发现论文，激发创造

因果世界模型的内在激励学习

研究探索通过推断环境因果结构以收集相关干预数据为手段，建立捕捉传感器运动交互背后真实物理机制的世界模型对于提高深度学习、强化学习、迁移学习和泛化能力至关重要。

Aug, 2022

元强化学习推理因果关系

研究通过元强化学习是否可以发现因果推理，在这项研究中，我们训练了一个递归神经网络对包含因果结构的一系列问题进行无模型强化学习，证明了该代理可以在新的情况下进行因果推理，从观测数据中得出因果推断结果以及进行反事实预测，我们提出这种学习方法也可以在复杂的推理场景中进行因果推理，同时该工作还提供了新的强化学习结构探索策略。

Jan, 2019

利用人类引导的因果知识实现更一般化的机器人任务规划

通过人类引导的因果知识的使用，作者在语言接口和机器人上开发和测试了一种方法，可以使机器人在新环境中获得泛化解决方案。

Oct, 2021

混合观测确定鲁棒因果表达方式

从观察中学习表示纯粹关注于学习一种对预测模型有益的低维紧凑表示。本文开发了一种学习方法，通过使用互信息度量对学习过程进行正则化，从观察数据中学习这种表示，根据假设的因子因果图。我们从理论和实证角度证明，使用学习的因果表示训练的模型在对抗攻击和分布转移方面比基准模型更强健。

Oct, 2023

发现代理人

本文提出了第一个正式的有关案例的因果定义 - 粗略地说，机构是指如果其行动以不同的方式影响世界将适应其策略的系统。从此，我们推导出了第一个通过实证数据发现代理的因果发现算法，并提供了在因果模型和博弈理论影响图之间进行转换的算法。我们通过解决一些由于错误的因果建模导致的先前混乱来演示我们的方法。

Aug, 2022

因果认知的解耦表示

复杂适应性代理通过解决需要理解因果信息的问题来实现其目标；因果认知研究并描述了人类和非人类动物在因果学习和推理方面的主要特征，提供了一个概念框架，可以根据任务的因果理解水平来讨论认知表现；本研究将机器学习和强化学习与因果认知相结合，构建了一个统一的因果认知框架，从而提供了动物认知研究的计算角度，并为人工智能中的因果强化学习算法的开发提供了新的视角。

Jun, 2024

通用智能需要重新思考探索

通过将探索驱动的学习概念性地统一监督学习和强化学习之间的探索驱动学习，我们提出了广义探索问题，以突出不同学习设置之间的关键相似之处和开放研究挑战，广义探索是用于维护开放式学习过程的必要目标。

Nov, 2022

使用干预学习自主代理端因果模型

本篇论文介绍了一种基于 agent assessment module 的 AI 系统执行高级指令序列并回答用户问题的方法，通过不同类别的查询来比较这种方法的计算要求和正确模型的学习所需的努力，并介绍了动态因果决策网络来捕捉 STRIPS-like 领域的因果结构。

Aug, 2021

因果透镜下的可解释强化学习

本文使用因果关系模型来推导强化学习器的行为的因果解释，并通过对一项实验的研究结果表明，基于因果模型的解释在任务预测、解释满意度和信任方面表现更好。

May, 2019

训练鲁棒性世界模型的无奖励课程

本文提出了一种名为 WAKER 的基于 minimax 遗憾目标的算法，可在 reward-free 环境下有效地学习鲁棒的世界模型，以提高不同环境下的机器人性能。

Jun, 2023