AAAIAug, 2020

赌博式数据驱动优化

TL;DR本文介绍一种称为 Bandit 数据驱动优化的迭代预测 - 处方框架,该框架结合在线 Bandit 学习和离线预测分析的优点。我们提出了一种新算法 PROOF,用于解决机器学习管道中四个主要痛点,即小数据,仅在默认干预下收集的数据,沟通差异导致未建模的目标和干预的意外后果。在数值模拟和实际案例分析中表现出优异的性能。