决策焦点学习的强化损失函数
考虑了预测 - 优化模式的决策制定方法,通过在历史数据上训练监督学习模型,再利用该模型在新环境中进行未来的二进制决策以最大化预测奖励,提出了一种新的损失函数 Empirical Soft Regret (ESR) 来显著改善模型训练中的奖励,该方法在新闻推荐和个性化医疗决策问题上明显优于现有算法。
Jun, 2024
不确定性优化参数的处理是一个重要且长期存在的挑战,本研究致力于通过构建决策导向的预测模型来减少决策对不确定参数的敏感性,并将其建模为一种非凸二次优化问题以实现可行性。
Dec, 2023
通过 von Neumann 最小极大定理,我们研究了在线凸优化游戏的最优策略的遗憾。我们证明了,在这种对抗性环境中,最优策略的遗憾与随机进程设置中经验最小化算法的行为密切相关:它等于最小期望损失的总和与最小经验损失之间的差的最大值。我们展示了最优策略的遗憾具有自然的几何解释,因为它可以被视为一个上凸函数的 Jensen 不等式中的差距。利用此表达式,我们对各种在线学习问题的最优策略给出了上下界限制。我们的方法提供了无需构建学习算法的上界,而提供了对抗者的明确最优策略的下界。
Mar, 2009
该研究提出了一种基于机器学习模型的决策学习方法,将预测转化成离散组合优化问题的目标函数的代价系数,并提出了一种新的噪声对比度估计损失函数,将决策学习作为学习排名问题,实现对最优解的链式排序,并通过实验检验了其优越性。
Dec, 2021
决策导向学习是上下文优化的一种有前景的发展,而我们提出了一个双重隐式层模型,用于训练预测模型以实现对不确定凸二次约束二次规划问题中健壮决策损失的训练。该模型是决策导向学习不确定凸 QCQPs 的有效正则化工具。
Dec, 2023
研究使用经验风险最小化解决预测和估计问题,针对一般凸损失函数。我们证明了即使当集中度是错误的或非常受限制的情况下,例如在重尾场景中,我们也可以获得尖锐的误差率。我们的结果表明,误差率取决于两个参数:一个捕捉类别的内在复杂性,以实质上在无噪声(或可实现)问题中导致误差率;另一个衡量类成员之间的交互、目标和损失,并且在问题远离可实现时是主导的。我们还解释了如何选择与类的内在复杂性和问题噪声水平相 calibrated 的损失来处理离群值。
Oct, 2014
本文介绍了一种不使用梯度下降或经验风险最小化技术来构建模型的学习算法,以构建实分析函数模型为例,将熟悉的泰勒逼近方法置于从分布中抽样数据的情境中,并证明了该学习结果的非均匀性。
May, 2023
通过数学证明,该论文指出学习到的奖励模型的预期测试误差越低,最差情况的后悔也越小,然而对于任意固定预期测试误差而言,存在着导致误差和后悔不匹配的现实数据分布,该问题即使在使用常见的强化学习方法中同样存在。因此,该论文的理论结果强调了开发衡量学习到奖励模型质量的新方法的重要性。
Jun, 2024