本文提出了一种完全自适应的方法,适用于在线学习中的动态比较基准,并且应用到了零和博弈中。
Jan, 2015
本文介绍了一种通过多次查询函数梯度并减弱强凸性条件来优化在线学习器性能的方法,并引入了比路径长度更小的平方路径长度作为比较序列的新规则。
Aug, 2016
本文研究了在线学习中基于动态后悔度的参考解决方案的变化以及静态后悔度参考解决方案的时间保持不变的差异,证明了基于在线梯度的近端算法是动态后悔度的最优算法。
Oct, 2018
本文讨论了基于梯度的在线学习算法来预测非凸模型序列的结果,提出了一种比标准regret更可解释的新定义来评估预测问题的性能并给出了该定义的边界分析。
Nov, 2018
通过建立连续在线学习(COL)这种新的设置,连续轮次中在线损失函数的梯度会随着学习者的决策而连续变化,我们可以更完整地描述许多有趣的应用,特别地,证明了满足单调EPs(经济平衡问题)能够在COL中实现子线性的静态遗憾。 由此得出的启示是,我们提供了实现子线性动态遗憾的有效算法的条件,即使选择的损失在先验变化预算中没有适应性。 此外,我们还展示了一个从动态遗憾到静态遗憾和相关EP(经济平衡问题)收敛的COL之间的简化,从而允许我们分析许多现有算法的动态遗憾。
Feb, 2019
本研究提出了一种广义的最好结果算法以及如何通过规范化导向跟随和在线镜像下降算法实现在线学习中的最好结果,将这种算法应用于上下文、图和表马尔科夫决策过程中。
Feb, 2023
研究随机环境下序列决策中模型选择的效用,并利用数据驱动方法得到候选后悔保证未知的基本学习方法,通过后悔平衡实现模型选择保证。
Jun, 2023
优化模型中的不确定参数通过预测估计,为了评估基于预测的决策质量,决策焦点学习旨在通过训练预测模型来最小化后悔,提出了三种更接近预期后悔的鲁棒损失函数,实验证明使用鲁棒后悔损失训练决策焦点学习方法能够改善测试样本的经验后悔并保持计算时间等效。
Oct, 2023
使用神经网络在在线回归任务和相关神经上下文盲目策略中展示了新的调整方法以减小后悔并通过实验证明其性能优于现有算法。
Dec, 2023
引入并研究了AMDP的新变体,该变体旨在最小化后悔同时利用一组成本预测器并开发了一种新的策略搜索方法,可在高概率下实现亚线性的乐观后悔界限。
May, 2024