Nov, 2022

了解过去预测未来:强化虚拟学习

TL;DR本篇论文提出了基于预测模型,使用历史数据构建的虚拟空间的强化学习模型,能够平衡长期和短期奖励,并使模型与真实环境交互以实现学习策略的最终收敛。在 Fed-Batch 过程的实验设置下,我们的方法始终优于现有技术水平。