Mar, 2024

未知约束的在线学习

TL;DR在线学习中最小化后悔,满足安全约束的广义元算法,估计未知的安全约束,并将在线学习预测转化为满足未知安全约束的预测,同时使用预测误差、各类模型的复杂度和新的复杂度度量来界定算法的后悔上限,同时提供了线性约束情况下的具体算法,使用比例变换平衡乐观探索和悲观约束满足,最小化根号 T 的后悔。