Jul, 2023

Hindsight-DICE:深度强化学习的稳定信用分配

TL;DR利用重要性抽样比率估计技术改进了策略梯度方法中的信用分配问题,解决了在顺序决策制定问题中缺乏评估反馈的挑战。