ICLRApr, 2023

离线多目标强化学习扩展帕累托高效决策

TL;DR本文提出了一种新的数据驱动离线 MORL 设置,介绍了专门针对离线设置的数据集 D4MORL,提出了一种基于 Pareto-Efficient Decision Agents 算法的决策代理,这种代理在行为策略上表现十分接近,在适当的情况下提供了 Pareto-front 的良好近似,可以通过超体积和稀疏度度量来衡量。