Aug, 2021

纳入未来信息的策略梯度

TL;DR这篇论文提出了一种名为 PGIF 的方法,通过信息瓶颈机制,允许强化学习中的代理观察未来的真实结果,从而获得有关未来轨迹动态的更加丰富的信息,以在不完全可观察的环境中实现更高奖励的目标。