R2 效用的多目标优化
基于鲁棒优化的多目标问题,介绍了鲁棒化和标量化两种关键操作之间的哲学差异,展示了风险概念在鲁棒多目标优化问题中的集成,并通过两个基于真实数据集的案例研究验证了这些新思路的有效性。
May, 2024
本文提出了一种基于随机标量化策略的多目标优化方法,可快速、灵活地从 Pareto 前沿的特定区域中采样,且在多项真实问题和合成问题的实验中显示了良好表现。
May, 2018
使用多目标贝叶斯优化方法,利用广义值分布来建立多独立 surrogate 模型(多 surrogates 方法),以解决现实问题中使用 scalarising 函数建立单一 surrogate 模型的限制。
Apr, 2022
本文调查了设计用于带有多个目标函数的顺序决策问题的算法。通过分类法,将对多目标方法的文献研究按适用的设定情况、标量化函数的属性和考虑的策略类型进行分类。总之,文章总结了关键应用和未来研究机会。
Feb, 2014
提出了一种基于强化学习的双深度 Q 网络优化算法结构,通过使用 R2 指标将单目标结构转化为多目标结构,以及通过评估每代算法的性能构建强化学习奖励函数,该算法在与其他基于 R2 指标的六种算法进行比较时表现出优秀的性能。
Apr, 2024
本文通过平滑优化技术,提出了一种新颖且轻量级的光滑 Tchebycheff 标量化方法,用于基于梯度的多目标优化问题,具有良好的理论性质,能够以较低的计算复杂度找到符合有效权衡偏好的所有 Pareto 解。实验结果充分证明了我们提出方法的有效性。
Feb, 2024
多目标权衡时,推荐系统中的标量化方法决定最终用于排序的加权平均奖励信号,本研究对该方法进行了扩展以优化长期用户保留或增长的综合奖励,使用连续多元动作空间的策略学习方法,并提出了修正措施,通过模拟、离线和在线实验验证了方法的有效性。
May, 2024
基于多目标强化学习的分解方法,通过使用多个效用函数将多目标问题分解为单目标问题,采用上限置信区间的方法在学习过程的不同阶段高效搜索最有前景的权重向量,以最大化 resulting Pareto front 的超体积。
May, 2024
通过引入基于效用的范式,将多目标强化学习的研究扩展到单目标强化学习领域,探讨了多策略学习、风险感知强化学习、折扣率以及安全强化学习等方面带来的潜在益处,并研究了采用基于效用的方法所带来的算法性能影响。
Feb, 2024