未知环境中机器人动态优化的因果强化学习

Sep, 2024

未知环境中机器人动态优化的因果强化学习

Causal Reinforcement Learning for Optimisation of Robot Dynamics in Unknown Environments

Julian Gerald Dcruz, Sam Mahoney, Jia Yun Chua, Adoundeth Soukhabandith, John Mugabe...

TL;DR本研究解决了机器人在未知环境中操作时缺乏对交互动态知识的问题。提出了一种新的因果强化学习方法，应用于城市搜索与救援场景，帮助机器人学习视觉特征与物体动态之间的因果关系，从而显著改善决策过程。实验结果表明，与非因果模型相比，该方法在复杂情况下学习时间减少超过24.5%。

Abstract

Autonomous operations of robots in Unknown Environments are challenging due to the lack of knowledge of the dynamics of the interactions, such as the objects' movability. This work introduces a novel Causal Reinforcemen

发现论文，激发创造

因果好奇：强化学习智能体发现自我监督实验用于因果表征学习

本文提出了一种名为causal curiosity的新的内在奖励方法，通过将其融入强化学习代理中，使代理能够通过自己生成的实验数据，以更少的数据量进行自我监督学习，发现环境中的因果关系，并能够将其应用于更复杂的任务之中。

Oct, 2020

CausalWorld：因果结构和迁移学习的机器人操纵基准

该研究提出CausalWorld，考虑了因果结构和迁移学习的机器人操作环境的基准。提供了具有共同因果结构和潜在因素的组合任务，这些任务可以用于训练和评估，以实现在不同任务分布之间的相似性，并具有迁移到真实世界的可能性。

Oct, 2020

强化学习效率提升的因果影响检测

本文研究如何通过对强化学习智能体在特定情况下的影响力进行测量，结合条件互信息将此度量值引入强化学习算法，提高机器人操作任务中的数据效率。

Jun, 2021

基于视觉模型的强化学习因果关系发现的系统评价

本文研究在机器学习中从观察数据中识别因果关系的问题，探讨如何帮助学习高级变量及其中的因果结构，并介绍了一套基于强化学习的环境用于测试表示学习算法的性能。研究表明，模型中显式地融合结构和模块化有助于因果识别。

Jul, 2021

朝向因果感知增强学习：基于状态的动作细化时间差分

此研究提出了基于状态修正行动的方法以解决动作空间冗余和促进强化学习中的因果关系发现，并探讨了两种解决方案：TD-SWAR和Dyn-SWAR，用于改善动作冗余任务中的学习效率。

Jan, 2022

提高强化学习健壮性的因果反事实

本研究提出 CausalCF，将因果推理与强化学习相结合，使得该模型在复杂任务上更加稳健，同时，实验表明 CausalCF 已经成为了第一个完整的能够将 Causal Curiosity 和 CoPhy 思想融入的因果强化学习解决方案。

Nov, 2022

基于时间观察的因果发现技术在道路驾驶行为上的评估

本文探讨了从低级别的时间观察中学习高级因果结构的问题，使用了当代基于观察的时间因果发现技术来探究自主机器人场景中的因果发现，并在多个数据集上进行了实验验证，提出了未来探索因果发现在自主机器人中应用的方向。

Jan, 2023

因果强化学习：一项调查

本文综述了因果强化学习的文献，介绍了其基本概念和如何应对非因果强化学习中的主要挑战，分类并系统地回顾了现有的因果强化学习方法，最后概述了该新兴领域的未解决问题和未来方向。

Jul, 2023

使用因果机器学习的行星任务自主机械臂操作

自主机器臂操纵器在行星探索和原位资源利用任务中具有提高时间效率和生产效率的潜力，并且操作器可以自行处理对象并执行目标特定动作。我们利用因果机器学习在模拟的行星环境中训练操纵器自主研究一些它没有先前知识的对象，如行星岩石，并且通过不同的因果因素对它们进行分类，这些因素包括质量或摩擦系数等，这些因素决定了其相互作用的结果。我们通过强化学习使操纵器学会以揭示潜在因果因素的方式相互作用，我们证明了即使没有任何对象的先前知识或以前收集的训练数据，该方法也能够奏效。我们在真实的操纵器模型下在行星探索条件下进行训练。

Mar, 2024

在面向对象环境中学习因果动力模型

本文介绍了一种新的基于对象的因果动力模型(Object-Oriented CDM, OOCDM)，它能够在大规模对象导向的环境中学习，并通过共享因果关系和参数来适应不同类别的对象。实验证明，在因果发现、预测准确性、泛化性和计算效率方面，OOCDM优于现有的CDMs。

May, 2024