regret rate | BriefGPT - AI 论文速递

关键词regret rate

搜索结果 - 10

在线学习中的交易量最大化
通过在在线学习框架中的交易者之间进行经纪，我们研究了经纪的关键问题。我们探索了经纪机构如何最大限度地提高交易量，并分析了对于交易者来说最优的交易策略和遗憾率。
PDF2 months ago
在线本地误发现率控制：一种资源分配方法
在线本地错误发现率控制的问题被归纳为具有随机预算补充不确定性的在线资源分配问题，通过引入预算缓冲区的新策略，成功将遗憾从 Ω(√T) 甚至 Ω(T) 降低到 O (ln^2 T)，并验证了理论发现的准确性。
PDF5 months ago
使用 VB-FTRL 通过对数损失在线学习量子态
对于在线学习量子态的对数损失函数（LL-OLQS），我们推广了 VB-FTRL 算法，该算法在多项式时间内实现了次最佳实力并具有 O（d^2log（d + T））的遗憾率。同时我们引入了 VB - 凸性的概念，以促进推广。
PDF8 months ago
基于核 $ε$-Greedy 策略的情境赌博机
该研究提出了一种基于核的上下文臂策略，使用在线加权核岭回归估算器对奖励函数进行估算，并在一定条件下证明了该估计器的一致性，同时针对任何核和相应的 RKHS 均可实现次线性遗憾率和最优遗憾率。
PDFa year ago
延迟赌博机：何时中间观察有帮助？
研究一种带有延迟反馈和中间观测的多臂老虎机模型，表明状态对损失的映射决定问题的复杂性，给出在不同映射下的后悔率上限，实验验证算法的有效性。
PDFa year ago
ICLR对抗性贝叶斯强化学习的对抗攻击
在对抗式多臂赌博机中，攻击者通过攻击策略干扰损失或奖励信号，以实现对受害者赌徒玩家的行为控制。我们向攻击者显示，攻击者能够引导任何无憾对抗性赌博算法，在每轮之外的几乎所有轮次中选择次优目标臂，而仅产生次线性的攻击成本。这个结果意味着在现实世
PDFa year ago
ICML双重稳健分布稳健离线评估与学习
本研究提出了基于 KL 散度不确定性集合的局部化双重稳健离线评估（LDR$^2$OPE）和连续双重稳健离线学习（CDR$^2$OPL）算法，用于应对观测数据的环境分布移位问题及未知倾向估计带来的方差挑战，其表现在模拟实验中得到验证，并进一步
PDF2 years ago
在线非凸学习：跟随扰动领袖是最优的
研究基于非凸损失的在线学习问题，证明了经典的 Perturbed Leader 算法在该设置下可达到最佳遗憾率，进一步证明乐观的 FTPL 算法在序列损失可预测时的遗憾界更优。
PDF5 years ago
带有部分反馈的在线分类的机会均等性
研究了一种在线分类问题，其中个体按固定但未知的分布一个接一个地到达，并必须被分类为积极或消极，算法只有在他们获得正分类时才会观察到个体的真实标签。该设置捕捉到许多分类问题，要求算法满足公平性约束.
PDF5 years ago
REGAL：一种基于正则化的弱通信 MDP 强化学习算法
本文提供了一种算法，用于在未知的弱交流 Markov 决策过程（MDP）中实现最佳的后悔率。该算法通过利用最优偏差向量跨度的正则化，在每个周期中选择一个策略。对于具有 S 个状态和 A 个动作的 MDP，其最优偏差向量的跨度受到 H 的限制
PDF12 years ago