智能 “预测,然后优化
利用 Smart Predict and Optimize (SPO) 方法解决离散优化问题,通过弛化问题和启发式初始化学习和解决,证明了该方法在复杂调度和加权背包等大规模组合优化问题中的优势。
Nov, 2019
该研究探讨了在 “先预测,再优化” 框架下使用决策树进行决策问题的决策,并提出了一种可观的方法称为 SPO Trees (SPOTs) 用于训练决策树,该方法具有较高的解释性。实验结果表明,SPOTs 可提供更高质量的决策,并显著降低了模型复杂性。
Feb, 2020
本文发展了第一个能够在 “预测 - 优化” 框架中进行主动学习的方法,该方法在决策问题的优化模型参数对应的标注样本的无标注数据流中逐步决定是否请求特征样本的 “标签”,其中标签是指决策模型参数的参数。我们的主动学习方法是第一个受预测参数引起的决策误差直接影响的方法,也就是所谓的 SPO 损失。根据 SPO 丢失的结构,我们的算法采用基于间隔的标准,利用退化距离概念最小化从收集的数据得到的 SPO 代理,开发了一种既有硬性拒绝变种又有软性拒绝变种的高效主动学习算法,每种算法都具有理论上的超额风险(即泛化)保证。此外,我们推导了标注成本的界限,这是指为了实现所需的 SPO 风险水平而获得标签的样本数。在一些自然低噪声条件下,我们展示了这些边界可以比标签所有样本的朴素监督学习方法更好。此外,当使用 SPO + 损失函数时,这是 SPO 损失的一个专门的代理,我们在可分离条件下推导出了显着较小的标注复杂度。我们还介绍了数字证据,显示我们所提出的算法在个性化定价和最短路径问题的设置中具有实际价值。
May, 2023
从观测特征中通过预测模型直接学习最优解的方法被提出,该方法是泛化的,基于学习优化范式,能够提供高效、准确和灵活的解决方案给一系列具有挑战性的预测优化问题。
Nov, 2023
基于数据驱动的方法预测后优化决策问题,使用非凸生成模型的情景预测区域构建了 Conformal-Predict-Then-Optimize(CPO)框架,保证了鲁棒性,并通过提供可视化的不确定性区域的语义化摘要,为最优决策提供了定性的直觉。
Oct, 2023
我们提出了软偏好优化(SPO)方法,它能够使生成模型(如大型语言模型 LLMs)与人类偏好对齐,无需奖励模型。SPO 通过一种自然损失函数,在整个模型的输出分布中最大程度地优化模型输出,包括偏好损失和正则化项。虽然 SPO 不需要假设现有的基础奖励模型,但我们证明,在布拉德利 - 特里(BT)模型的假设下,它收敛于缩放奖励的 softmax,通过调整 softmax 指数,可以调节分布的 “软度”。我们展示了 SPO 的方法论、其理论基础以及在简单性、计算效率和对齐精度方面的比较优势。
Apr, 2024
我们提出了一个集成的预测 - 优化(PredOpt)框架,通过预测二进制决策变量在最优解中的值,高效地解决顺序决策问题。我们通过循环神经网络和滑动注意机制捕捉组合优化问题的顺序特性,并将基于注意力的编码器 - 解码器神经网络架构与消除不可行性和泛化框架相结合,以学习高质量的适用于时间相关优化问题的可行解。我们的结果表明,可以成功地使用在较短和较小维度实例上训练的模型来预测更长更大维度的问题。优化解决时间可缩短三个数量级,平均最优性差距小于 0.1%。我们将 PredOpt 与各种专门设计的启发式方法进行比较,并证明我们的框架表现优于它们。PredOpt 对于需要立即且重复求解的动态 MIP 问题具有优势。
Nov, 2023
我们提供了一个新的更简单更强大的框架称为 Two-Stage Predict+Optimize,可用于预测和优化的设置中,通过训练算法涵盖了所有混合整数线性程序,并且实验证明我们的训练框架在所有传统和最先进方法上具有卓越的预测性能。
Nov, 2023
通过顺序优化方法,本研究提出了一种解决大规模语言模型对齐人类偏好多维度问题的方法,避免了显式奖励建模,并在人类偏好的多个维度上实现了对齐,实验证明其优于基线模型。
May, 2024
通过训练技术和应用设置,本文将 PtO 方法扩展到具有不可微分的有序加权平均目标的优化问题,展示了如何在不确定性下有效地将 OWA 函数优化与参数预测相结合,以实现公平和稳健的优化。
Feb, 2024