Apr, 2024

具近见式指导反馈的可证明交互式学习

TL;DR探讨了以回顾性标签为指导的交互学习,通过理论分析证明了任何算法的后悔度必须与代理的响应空间的规模成比例,并基于低秩矩阵的特殊设定引入了名为LORIL的算法,并证明了它的后悔度与回合数的平方根成比例,而不以代理的响应空间的大小为依据,最后通过两个领域的实验表明了LORIL优于基准算法。