BriefGPT.xyz
Ask
alpha
关键词
single-objective solvers
搜索结果 - 1
分而治之:利用多目标强化学习可证明揭示帕累托前沿
多目标强化学习中的一个重要挑战是在不同偏好下获得达到最优性能的政策帕累托前沿,本文引入了迭代帕累托参考优化(IPRO),一种将寻找帕累托前沿的任务分解成一系列单目标问题的原则性算法,以此实现收敛性保证并在每一步给出到未发现帕累托最优解的距离
→
PDF
5 months ago
Prev
Next