本研究考虑了强化学习中因未观测潜在因素引起的虚假相关性所导致的稳健性问题,提出了集成马尔可夫决策过程和状态混淆技术的算法 RSC-MDPs,并在真实的自动驾驶和操作环境中验证了其卓越性能。
Jul, 2023
本文介绍了一种扩展奖励分解方法的因果学习框架,通过利用信息论度量的解释目标来鼓励因果因素的三个关键属性:因果充分性、稀疏性和正交性,并通过提取智能体状态、动作或奖励之间的因果关系深入理解其决策过程,从而为行动选择提供更有意义和有洞察力的解释。
Dec, 2023
通过选择适当的样本点从演示数据集中进行有选择性的采样,我们研究了离线增强学习中的因果混淆现象,并评估了主动采样技术在减少因果混淆方面的能力。我们提供了实证证据,证明随着训练的进展,均匀采样和主动采样技术能够持续减少因果混淆,并且主动采样要比均匀采样更高效地实现这一目标。
本研究提出 CausalCF,将因果推理与强化学习相结合,使得该模型在复杂任务上更加稳健,同时,实验表明 CausalCF 已经成为了第一个完整的能够将 Causal Curiosity 和 CoPhy 思想融入的因果强化学习解决方案。
Nov, 2022
模仿学习中的因果混淆问题及其遮蔽算法的应用。
本文研究如何通过对强化学习智能体在特定情况下的影响力进行测量,结合条件互信息将此度量值引入强化学习算法,提高机器人操作任务中的数据效率。
Jun, 2021
本文提供了几种干预方法用来解决因果模型中出现的假相关问题,并在强化学习环境中的实验结果也表明,相较于使用随机数据或基于环境奖励的数据进行模型学习,本文的方法能够得到更好的因果模型。
Feb, 2020
通过偏好学习奖励的策略是一种定制代理行为的越来越受欢迎的方法,本文通过敏感度和消融分析,发现不能考虑多种因素会导致出乎意料和不良行为,如奖励误认和因果混淆等。
Apr, 2022
通过使用功能实际因果 (FAC) 和联合优化实际因果推断 (JACI) 算法,本研究在复杂连续数值环境中展示了 FAC 与实际因果文献中已知结果的一致性,并且 JACI 在识别实际原因的准确性上明显优于现有的启发式方法。
Apr, 2024
本研究提出了一种针对强化学习中存在相关特征的高维观察数据的辅助任务方法,通过最小化表示中特征的条件互信息来学习解缠缚表示,以提高对相关性变化的泛化能力。实验结果表明,该方法可以提高强化学习算法的训练性能和泛化能力。
May, 2023