研究混合损失函数的收敛性及其与熵的关系和性质,推导出一般熵下的常数后悔界算法和优化问题,并对不同熵的选择提出了一些猜想。
Jun, 2014
针对在线学习推荐的一种变体聚合算法,该算法基于广义聚合函数,具有与 AA 相似的理论性质,如贝叶斯更新和对广义和损失的时间无关边界。
Jun, 2024
探讨网络预测与专家意见的关系,研究如何转化任意 beta 可混合损失为同一 beta 值的 beta 指数凹复合损失函数,以实现计算效率和性能保证的平衡。
May, 2018
本研究探讨了一类广泛问题的在线可学性,并将其扩展到远超过外部遗憾的性能评估简单规范。我们的框架同时捕捉了其他著名规范,例如内部和一般 Phi 规范、学习使用非加性全局成本函数、Blackwell 的可挑战性、预测者的校准、自适应遗憾等。我们展示了在所有这些情况下的可学习性归因于控制相同的三个量:马田哥小定理收敛项、如果已知未来则能够表现良好的能力描述项、以及顺序 Rademacher 复杂性的概括,该复杂性在 (Rakhlin, Sridharan, Tewari, 2010) 中得到研究。由于我们直接研究问题的复杂性,而不是专注于高效算法的开发,因此我们能够改进和扩展许多已知结果,这些结果之前是通过算法构造推导出来的。
Nov, 2010
该文介绍了一种算法,可以在任何时间段内对任何字符串进行零误差预测,同时在总体上得到小的遗憾值,并将这种算法扩展到 $N$ 个专家的一般情况。
Aug, 2010
简而言之,本文提出了一种针对广义和博弈的、分散、计算高效的算法,其保证所有代理都使用时可以提供次线性遗憾保证,并且不需要代理之间的通信。该算法的主要观察结果是,通过马尔可夫游戏的在线学习基本上可以归结为一种加权遗憾最小化。
Jul, 2022
本文提出了一种基于乐观的镜像下降的无悔策略算法,可以在非稳态环境下实现 O (sqrt (T)) 的后悔度,并可在变分稳定游戏中收敛到纳什均衡。
Apr, 2021
研究使用镜像下降和熵正则化的方法在维度上实现对于一系列的一般化后的后悔情况的误差上界,其中包括了位移、自适应、折扣等等,并且得到了和权值分享方法的等价结果。研究同时提出了对于小的误差和参数的自适应调整等的改进。
Feb, 2012
我们研究了一个关于二元决策聚合问题,其中既有真实可信的专家,又有对抗性的专家;我们的目标是设计一个稳健的聚合器来预测真实世界的状态,同时最小化与基准决策之间的预期损失差距。我们证明了在一些条件下,截断均值是最优的聚合器选择,并且很多情况下最优聚合器属于分段线性函数类;我们的结果表明,遗憾值与专家总数无关,只取决于对抗性专家的比例。
Mar, 2024
该论文提出了一种新的 “元” 算法,可以在在线学习环境中实现算法的快速适应,该算法对于同样时间复杂度的其他算法而言具有更好的强适应性后悔边界,并且在专家建议的学习及度量学习方面表现优异。
Nov, 2017