Oct, 2020

无限时间预测的生成时序差分学习

TL;DR本文介绍了 γ 模型 —— 一种具有无限概率时间的预测环境动态模型。它能够代替常规的单步模型,进一步通用模型控制、模型展开和基于模型价值评估等过程。该模型通过生成式时间差分学习进行训练,是状态衍生表示的连续自然模拟,并结合了无模型和基于模型的特点。我们将 γ 模型的实例作为生成式对抗网络和正则化流,并探讨它在预测和控制方面的实用性。