BriefGPT.xyz
Ask
alpha
关键词
sub-linear regret
搜索结果 - 5
网络资源分配的在线优化及与强化学习技术的比较
我们在本文中解决了一种带有任务转移的在线网络资源分配问题,提出了基于指数加权方法的随机在线算法,证明了该算法具有次线性时间后悔,通过对人工数据进行性能测试并与强化学习方法进行比较表明我们的方法优于后者。
PDF
8 months ago
鲁棒利普希茨贝叶斯在对抗扰动下的决策
本文提出了第一行对抗下的强、弱 Lipschitz bandit 算法,能在无总损坏预算的情况下,在两种类型的对手下实现次线性后悔,但强对手情况下表现最优,并通过对两种经典攻击的试验证明了该算法的有效性。
PDF
a year ago
AAAI
有限时段不静态多臂多动作赌博机的强化学习
本文研究的是带有多动作的有限时间不安定多臂赌博机问题,提出了一种可行的指数策略 Occupancy-Measured-Reward Index Policy 以及一种学习算法 R (MA)^2B-UCB,相比现有算法在遗憾和运算量等方面表现
→
PDF
3 years ago
基于上下文信息的无监督连续选择在线算法
研究了一个新的随机上下文臂问题变体,其中臂的损失无法从观察到的反馈中推断出来,每一轮中介绍一个上下文,学习者将臂顺序地选择到一定深度,如果问题结构中的最优臂可以得到明确或隐含的推断,则可以通过提出的算法来进行学习并展示它具有次线性的遗憾。
PDF
4 years ago
线性二次型调节器的鲁棒自适应控制遗憾界
本文提出了一种自适应控制的方法,可用于处理 Linear Quadratic Regulator 中未知的线性系统和需求预测的问题,算法的时间复杂度为多项式级别,且在控制中有很好的保障。
PDF
6 years ago
Prev
Next