Oct, 2022

使用深度 Q-Learning 和变分自编码器进行可解释选项发现

TL;DRDeep Reinforcement Learning 领域中基于选择框架的 DVQN 算法提出了一种基于高斯分布的潜在空间来定义选择并通过传统的 Q-Learning 更新来找到良好策略的方法,通过实验证明其可替代 Rainbow 算法在自动识别选择的开始和结束条件方面表现可能更好。