AAAIJun, 2014

具有连续 Pareto 前沿逼近的多目标强化学习 —— 补充材料

TL;DR使用梯度信息和基于策略的方法在多目标 MDP 中学习连续的 Pareto 边界序列,通过跟踪单个梯度上升运行来生成解决方案。