Feb, 2015

反事实风险最小化:从带状反馈中学习

TL;DR开发了一种学习原则和一种有效算法,用于从记录的 bandit 反馈中进行批处理学习。由此产生的 Counterfactual Risk Minimization 原则提供了 POEM 的新学习方法,用于学习结构化输出预测的随机线性规则。