May, 2023

MLE 作为 Exp3 算法学习率估计器的收敛性

TL;DR本文研究了在将个体的学习数据拟合到类似算法的学习模型时,如果学习速率是恒定的,那么 MLE 的估计不能有效,同时如果学习速率随样本数量按多项式下降,则 MLE 的预测误差和估计误差都满足概率边界,这些边界随多项式率下降。