Oct, 2023

多任务强化学习在非马尔可夫决策过程中的可证明收益

TL;DR多任务强化学习在马尔可夫决策过程中的应用揭示了共享潜在结构可以显著提高对样本的利用效率,并探讨了在部分可观察的 MDPs 和预测状态表示中这种好处是否能扩展。