AAAIJun, 2014
具有连续 Pareto 前沿逼近的多目标强化学习 —— 补充材料
Multi-objective Reinforcement Learning with Continuous Pareto Frontier Approximation Supplementary Material
Matteo Pirotta, Simone Parisi, Marcello Restelli
TL;DR使用梯度信息和基于策略的方法在多目标 MDP 中学习连续的 Pareto 边界序列,通过跟踪单个梯度上升运行来生成解决方案。