regret | BriefGPT - AI 论文速递

关键词regret

搜索结果 - 334

增强的 H 一致性界
基于条件遗憾的关系，我们提出了一种通用框架来建立增强的 H 一致性边界，这些边界不仅包括现有结果的特例，还能在各种情况下导出更有利的边界，例如：标准多类分类、Tsybakov 噪声条件下的二元和多类分类以及二部排序。
PDF9 days ago
学习同质数据定价
我们研究了一个数据定价问题，卖家可以通过重复市场交易来学习最大化收益的定价曲线，利用新的离散化方案，我们在随机和对抗性情境下实现了较小的后悔值。
PDF20 days ago
ICML通过弱差分隐私在线学习实现纳什激励兼容性在线机制学习
在多轮机制设计中，我们研究了一个与一组代理进行交互的问题，想要设计一种激励相容的在线学习方案，在给定的机制类别中最大化特定应用目标，而不需要先验知识从而导致整个学习过程对于多轮出现的非近视买家来说不是激励相容的。
PDF21 days ago
ICML因果型赌博机：适应性的帕累托最优前沿，相对于线性赌博机的简化以及对未知边际分布的限制
本文研究了多臂赌博问题中适应因果结构的问题，探讨了条件性有利结构和任意环境中学习性能的权衡关系，并通过将问题转化为线性赌博设置，首次获得了因果赌博的实例相关界。
PDFa month ago
黑盒预测优化的渐近最优遗憾
考虑了预测 - 优化模式的决策制定方法，通过在历史数据上训练监督学习模型，再利用该模型在新环境中进行未来的二进制决策以最大化预测奖励，提出了一种新的损失函数 Empirical Soft Regret (ESR) 来显著改善模型训练中的奖励
PDFa month ago
线性二次系统控制的全自适应保证后悔算法
提出了一种解决具有未知系统模型的线性二次（LQ）控制问题的算法，其遗憾为 O (√T)，并在此基础上提出了首个完全自适应的算法，同时控制策略更新次数和自适应地优化遗憾上限，避免了计算复杂性问题。
PDF2 months ago
在线牛顿方法在博弈凸优化问题中的应用
零阶强化学习的计算方法在对抗性和随机性设置中的性能界限及其与维度的关系
PDF2 months ago
ICML最佳批处理线性赌臂机
通过引入 E$^4$ 算法以解决批量线性赌博问题，本文证明在适当的探索速率下，E$^4$ 算法在有限时间内实现了有界的最小化遗憾，并随着时间趋于无穷实现了渐近最优的遗憾，同时也获得了渐近最优的批量复杂度。
PDF2 months ago
通过懒惰算法实现私密在线学习
我们研究了私密在线学习的问题，特别是专家预测（OPE）和在线凸优化（OCO）。我们提出了一种将惰性在线学习算法转化为私密算法的新方法。我们通过使用现有的惰性算法解决这些问题，将我们的转化应用于差分隐私 OPE 和 OCO。我们的最终算法在高
PDF2 months ago
完全无约束的在线学习
我们提供了一种在线学习算法，可以在不知道 G 或∥w∗∥的情况下，获得在 G-Lipschitz 凸损失函数上的遗憾 G∥w∗∥√(Tlog (∥w∗∥G√T)+∥w∗∥^2+G^2)，这与具有此类知识的最佳界限 G∥w∗∥√T 匹配（除了
PDF2 months ago
流式随机多臂赌博机中的记忆 - 遗憾权衡理解
在 $P$ 次流式模型中研究随机多臂赌博机问题，通过设计一种算法，给出了关于 $m，n$ 和 $P$ 的最优遗憾度量的完整刻画，同时提出了一个上界和下界，结果在 $n$ 和 $P$ 方面具有紧密性。
PDF2 months ago
多类别 U 校准误差的最优解与进一步
在线多类别 U 校准问题：解决了 Kleinberg 等人提出的开放问题，证明理想的 U 校准误差是 Θ(√KT)，并在损失函数的自然假设下加强了结果，包括利普希茨损失函数的 Θ(log T) U 校准误差，可分解损失函数的 O (log
PDF2 months ago
可证明高效的无限时间平均回报线性 MDP 的强化学习
设计了一个计算有效的算法，通过将平均奖励设定近似为折扣设定，并且在适当调整贴现因子时，通过运行基于乐观值迭代的算法来实现无限时段平均奖励线性马尔可夫决策过程 (MDP) 的 O (sqrt (T)) 的遗憾。
PDF2 months ago
经纪的情境在线学习理论
我们研究了在经纪人之间的在线学习问题中上下文信息的作用。我们假设交易资产的市场价值是代表经纪人可用的上下文信息的 $d$ 维向量的未知线性函数。我们通过与交易利润相关的遗憾来评估学习算法的性能，并提供了相应的遗憾界限。
PDF2 months ago
具有半绑定反馈的随机在线一致预测
通过修改模型输出一组标签而不是单个标签，符合预测已成为一种可行的不确定性量化策略。在在线学习设置中，我们考虑了半强盗反馈，其中只有在真实标签包含在预测集中时，我们才能观察到真实标签。我们提出了一种针对这种情况的新颖符合预测算法，并证明它相对
PDF2 months ago
多类别分类中的强盗信息真实价格
经作者研究，本论文主要探讨基于强化学习反馈的多类别分类问题，特别关注类别数量 K 对于 T 步的后悔度上界是否能够超过现有算法的√(KT) 依赖性，作者提出了一种新的分类算法以获得对于适度大小的假设类别集合维度的后悔度结果 O (|H|+√
PDF2 months ago
具有对抗约束的在线凸优化的严格界
有关在线凸优化和约束在线凸优化的一篇研究论文，证明了一个在线策略可以同时实现 O (√T) 的遗憾和 θ̃(√T) 的累积约束违规，通过将 AdaGrad 算法的自适应遗憾界与 Lyapunov 优化相结合，达到了这一结果。
PDF2 months ago
无限时间段折现决策过程的汤普森抽样
我们通过建立一个马尔可夫决策过程模型，研究一种名为汤普森采样的采样算法的渐近行为。我们展示了标准（期望）遗憾可能呈超线性增长，并且不能很好地捕捉到在具有非平凡状态演进的现实情况下的学习概念。通过分解标准（期望）遗憾，我们提出了一种新的指标，
PDF2 months ago
非精确多臂赌博机
我们引入了一种新颖的多臂赌博问题框架，其中每个臂与一个固定的未知置信集相关联，覆盖了结果空间（可以比奖励更丰富）。臂 - 置信集对应关系来自已知的假设类。我们定义了一种与这些置信集定义的下概率相对应的遗憾概念。等价地，这个设置可以被视为一个
PDF3 months ago
IJCAI协同进化和赌博学习算法的浓度尾部限制分析
本文研究了随机算法（如演化算法和贝叶斯算法）的运行时间以及寻找问题解决方案之前所需的迭代次数，并提供了一个新的漂移定理，给出了在正、弱、零甚至负漂移情况下的精确指数尾界，用于证明 AI 算法的运行时间高度集中在最优解上，同时指出了 RLS-
PDF3 months ago