ICMLFeb, 2022

利用执行反馈的懊悔最小化

TL;DR本文研究了在 performative 情境下找到接近最优点的模型的问题,该算法在找到最优解的同时还能保证低的后悔值,并通过对分布性的探索来构建风险置信度,从而建立了一种利用 bandits 算法来实现 performative 反馈下的后悔最小化的概念方法。