Apr, 2024

监督学习的 MRP 公式化:广义时间差异学习模型

TL;DR该研究提出了一种将数据点视为相互关联的观点,并使用马尔科夫奖励过程(MRP)进行数据建模的统计学习方法。通过引入广义的时序差分(TD)学习算法来重塑传统的有监督学习问题,并与普通最小二乘法(OLS)的解决方案建立联系。同时,该研究还证明了在特定条件下,尤其是在噪声相关时,TD 的解决方案比 OLS 更有效。在线性函数逼近下,该研究建立了广义 TD 算法的收敛性,并通过实证研究验证了理论结果,展示了该算法在各种数据集及任务(如回归和深度学习的图像分类)上的实用性。