论文提出了一种称为多目标策略学习的方法,它将政策学习的最佳决策树与多目标贝叶斯优化方法相结合,通过建立非支配模型的帕累托前沿来探索多个结果间的权衡,并使用代理函数作为非常昂贵的期望遗憾的最优树的准确代理。该方法应用于摩洛哥现实案例研究中的条件性现金转移上,部分最优、部分贪心的杂交策略树作为最优策略树的代理,能够提供良好的性能,并且计算成本低廉。
Dec, 2022
本研究比较并评估了三种在医疗决策中学习个性化治疗方针的方法:两种间接方法和一种直接方法。研究结果表明,三种方法均优于临床医生,并在不同目标之间进行权衡。直接方法还具有其他优点,包括灵活地将其他目标纳入考量,适用于简单情况的医师推迟。
Jun, 2020
本文提出了一种用于多目标强化学习的新算法,可以以一种无量纲的方式设置目标的偏好,并且通过学习行动分布和拟合参数策略来在高维实际机器人任务及模拟任务中展示了其有效性,从而找到一组非支配解空间。
May, 2020
通过学习排名的方法,我们提出了一种在预算约束下有效分配治疗的方法,并验证了其在合成和真实数据上的有效性。
May, 2024
提出了一种基于平衡的权重方法来评估和学习个性化决策策略,该方法适用于利用历史记录来进行个性化医疗和互联网广告,该方法明显优于现有方法。
May, 2017
本文提出了一种新的方法来优化二分类或连续处理的细微变化,该方法可以利用观测数据,其中因果效应使用各种策略(包括可观察的选择和仪器变量)进行识别,并建立了一种针对选择谁进行治疗的算法,并确定了其产生的政策渐近效用后悔的强有力保证。
Feb, 2017
连同统计可减少方差的估计和鲁棒估计在内,研究了在可能违反正性的情况下的最优治疗规则的因果识别和估计,以及如公平性等约束通过约束优化处理,并提出了用于获得方差敏感性遗憾界的多参数政策类的两阶段算法。
Sep, 2023
多目标权衡时,推荐系统中的标量化方法决定最终用于排序的加权平均奖励信号,本研究对该方法进行了扩展以优化长期用户保留或增长的综合奖励,使用连续多元动作空间的策略学习方法,并提出了修正措施,通过模拟、离线和在线实验验证了方法的有效性。
本文主要研究基于观测数据的离线多行动策略学习问题,特别地,该策略可能需要遵守预算约束或属于受限策略类,如决策树,提出了一个算法实现,能够达到渐近最小化风险后悔,这是在多行动设置中的首次结果,对于现有的学习算法有大幅度的性能提升。该文提出了两种不同的方法来解决当策略被限制为采用决策树形式时出现的附加计算挑战,一种方法使用混合整数方案,另一种方法使用基于树搜索的算法。
Oct, 2018
该论文研究了 Pareto 最优估计和政策学习方法,用于识别最有效的治疗方法,通过权衡短期和长期效果最大化总奖励,解决多目标优化和冲突问题。
Mar, 2024