Oct, 2023

对比差异预测编码

TL;DR本文介绍了一种自适应时间差异版对比性预测编码,通过拼接不同时间序列数据的片段来减少学习未来事件预测所需的数据量,并将该方法应用于推导目标条件强化学习的离线策略算法。实验表明,与先前的强化学习方法相比,我们的方法在成功率方面取得了 2 倍的中值提高,能够更好地应对随机环境。在表格设置中,我们展示了我们的方法比后续表示方法更节约样本,比标准(蒙特卡洛)版本的对比性预测编码更节约样本数量约 20 倍和 1500 倍。