Jul, 2022

运用变分因果推理泛化目标条件强化学习

TL;DR利用 Causal Graph 加强了 Goal-Conditioned RL,提出了一种理论性能保证的优化框架,包括因果性发现、转换建模和策略训练的循环以提高 RL 代理的推理和泛化能力,并在九种任务上与五个基线进行了实证效果验证。