多个目标的策略学习：将最优策略树与多目标贝叶斯优化相结合

Dec, 2022

多个目标的策略学习：将最优策略树与多目标贝叶斯优化相结合

Policy learning for many outcomes of interest: Combining optimal policy trees with multi-objective Bayesian optimisation

PDF

Patrick Rehill

TL;DR论文提出了一种称为多目标策略学习的方法，它将政策学习的最佳决策树与多目标贝叶斯优化方法相结合，通过建立非支配模型的帕累托前沿来探索多个结果间的权衡，并使用代理函数作为非常昂贵的期望遗憾的最优树的准确代理。该方法应用于摩洛哥现实案例研究中的条件性现金转移上，部分最优、部分贪心的杂交策略树作为最优策略树的代理，能够提供良好的性能，并且计算成本低廉。

Abstract

Methods for learning optimal policies use causal machine learning models to create human-interpretable rules for making choices around the allocation of different policy interventions. However, in realistic policy-making contexts, decision-makers often care about trade-offs between out

policy learning multi-objective optimization decision trees trade-offs surrogate function

发现论文，激发创造

离线多操作策略学习：泛化与优化

本文主要研究基于观测数据的离线多行动策略学习问题，特别地，该策略可能需要遵守预算约束或属于受限策略类，如决策树，提出了一个算法实现，能够达到渐近最小化风险后悔，这是在多行动设置中的首次结果，对于现有的学习算法有大幅度的性能提升。该文提出了两种不同的方法来解决当策略被限制为采用决策树形式时出现的附加计算挑战，一种方法使用混合整数方案，另一种方法使用基于树搜索的算法。

Oct, 2018

预测的政策树：机器学习中可解释和自适应的模型选择

通过开发一种树基的方法学，Optimal Predictive-Policy Trees (OP2T)，我们提出了一种规定性方法来解决机器学习模型选择中的关键问题，从而产生可解释的适应性策略以选择预测模型或集成，并具有参数化选项拒绝进行预测。

May, 2024

降维多目标策略学习与优化

通过降维回归模型，我们提出了一种数据驱动的方法，以多目标的最优政策学习为背景，从观测结果中学习出真实结果的低维度表示。我们的方法在政策评估和优化中降低了估计误差，通过降低噪音社会结果的方差，提高了算法分配的性能。

Apr, 2024

多目标主动偏好学习的贝叶斯优化

提出了一种贝叶斯优化方法，用于在具有昂贵目标函数的多目标优化问题中确定最优解，通过交互方式自适应地估计 DM 的贝叶斯偏好模型，并利用获得的偏好信息进行主动学习，从而有效地在基准函数优化和机器学习模型的超参数优化问题中找到最优解。

Nov, 2023

蒙特卡罗树搜索用于策略优化

本文提出了一种基于蒙特卡罗树搜索和无梯度优化的策略优化方法，称为 MCTSPO，通过使用上界置信度启发式获得更好的探索 - 利用平衡，相对于基于梯度和深度遗传算法的基准，在具有欺骗性或稀疏奖励函数的强化学习任务中表现更佳。

Dec, 2019

发现式策略优化

本文通过元学习 Mirror Learning 结构并发现一个闭合形式的强化学习算法 DPO，通过在 Brax 环境下的实验验证，证明 LPO 和 DPO 算法在性能上处于最先进的位置，并具有在未知环境中的转移能力。

Oct, 2022

偏好感知的约束多目标贝叶斯优化

本研究提出了一种基于贝叶斯优化的 PAC-MOO 方法来解决在大部分输入空间不可行时（即违反约束条件），由实践者指定目标函数的约束多目标优化问题，特别地，在电路和电力系统设计等工程设计问题中。该方法能够学习输出目标和约束的代理模型，并选择在每次迭代中评估最大程度能获得有关最佳受约束 Pareto 前沿的信息且同时考虑目标偏好的候选输入，实验结果表明 PAC-MOO 比现有方法更加有效。

Mar, 2023

神经多目标组合优化问题中的 Pareto 集学习

本文通过神经组合优化的思想，提出了多目标组合优化问题的学习方法，模型可直接生成逼近帕累托前沿的解，证明了该方法在多目标问题上的有效性。

Mar, 2022

多目标策略优化的分布式视角

本文提出了一种用于多目标强化学习的新算法，可以以一种无量纲的方式设置目标的偏好，并且通过学习行动分布和拟合参数策略来在高维实际机器人任务及模拟任务中展示了其有效性，从而找到一组非支配解空间。

May, 2020

强化学习中的多目标策略优化政策组合

通过利用相关的现有教师策略，我们使强化学习代理能够学习成功的行为策略，并在多目标策略优化设置中将教师策略引入作为目标之一，展示了教师策略能够加速学习的方式，尤其是在缺乏塑形奖励之情况下。

Aug, 2023