May, 2023
MLE 作为 Exp3 算法学习率估计器的收敛性
On the convergence of the MLE as an estimator of the learning rate in the Exp3 algorithm
Julien Aubert, Luc Lehéricy, Patricia Reynaud-Bouret
TL;DR本文研究了在将个体的学习数据拟合到类似算法的学习模型时,如果学习速率是恒定的,那么 MLE 的估计不能有效,同时如果学习速率随样本数量按多项式下降,则 MLE 的预测误差和估计误差都满足概率边界,这些边界随多项式率下降。