学习帕累托集合用于多目标连续机器人控制
本研究提出了一种新型的多目标强化学习算法 PD-MORL,该算法利用偏好作为指导来更新网络参数,并采用一种新的并行化方法来提高采样效率,可覆盖整个偏好空间,适用于连续机器人任务的可伸缩性更强,相较于以往方法具有更高曲线下面积并且可训练参数量更少。
Aug, 2022
本文介绍了将多目标强化学习应用到连续控制问题中,通过元学习的方法探索可能的最优策略,以此来近似帕累托最优解并提高计算效率。作者在高自由度的控制问题中验证了该方法。
Nov, 2018
使用梯度信息和基于策略的方法在多目标 MDP 中学习连续的 Pareto 边界序列,通过跟踪单个梯度上升运行来生成解决方案。
Jun, 2014
提出了一种新的、高效的方法,可以生成局部连续的 Pareto 集和 Pareto fronts,并将其应用于现代机器学习问题中。通过提出基于样本的稀疏线性系统,将多目标优化的理论结果扩展到现代机器学习问题中,并实现了局部 Pareto 集的分析。与现有算法相比,通过在各种多任务分类和回归问题上的应用,证明了我们的算法在平衡权衡、有效地找到更多的不同权衡解以及迎合百万级参数任务的能力。
Jun, 2020
本文通过神经组合优化的思想,提出了多目标组合优化问题的学习方法,模型可直接生成逼近帕累托前沿的解,证明了该方法在多目标问题上的有效性。
Mar, 2022
介绍了一种新的多目标强化学习算法,使用广义策略提升来定义优先级,实现了积极的学习策略,在学习中获得更高效的样本,通过使用 Dyna 样式的 MORL 方法识别先前经验最相关的特定代理偏好的策略以提高学习效率,并证明了算法始终收敛于一个有限步数的最优解,同时单调地提高其部分解决方案的质量。
Jan, 2023
本文研究多目标强化学习算法在博弈中不同信念玩家的目标问题,提出了一种策略表述方式,利用递归形式来得出 Pareto 最优策略的特征,其中包括机器学习会利用玩家自身的信念来评估策略效果,并根据信念和机器输入条件的贴合程度,适当调整对每个玩家效用的相对优先级。
Jan, 2017
本文提出了一种新的数据驱动离线 MORL 设置,介绍了专门针对离线设置的数据集 D4MORL,提出了一种基于 Pareto-Efficient Decision Agents 算法的决策代理,这种代理在行为策略上表现十分接近,在适当的情况下提供了 Pareto-front 的良好近似,可以通过超体积和稀疏度度量来衡量。
Apr, 2023
本文提出了一种基于学习的方法,将分解式多目标优化算法 (MOEA/D) 从有限种群推广到模型,以近似整个 Pareto 集,为决策者提供灵活的决策,并展示实验结果。
Oct, 2022