Jul, 2022

基于联合训练的生成潜空间的强化学习智能体指导的反事实

TL;DR本篇论文提出了一种基于变分自编码器的生成方法,通过特征代表智能体行为的观察值,生成未知而合理的反事实样本,可以提高强化学习代理的决策质量。