Oct, 2022

基于模型的离线强化学习中的悲观情况调节动态信念

TL;DR通过维护动态神经网络的信念分布,以偏向悲观主义的样本采样为基础的迭代策略优化算法被设计,可以最大限度地利用静态数据集,实现基于模型的离线强化学习。