- 基于数据相关遗憾分析的在线核选择在记忆约束下的学习能力
在线核选择是在线核方法的基础问题之一。本文研究了在线核选择在内存约束下的问题,通过提供数据相关的上界,展示了在线可学习性、内存约束和数据复杂度之间的权衡关系。我们提出了一种算法框架,针对两类损失函数分别给出了数据相关的上界,并通过理论证明和 - 具有时序反馈图的对抗在线学习
基于分区策略,本研究提出了一种新的学习算法,用于预测与专家建议的问题并同时受限于反馈图结构,证明对于传递反馈图,该算法可以高效实现且达到最优遗憾界(与一个常数因子定量相近)的预测性能优化。
- 改进的上下文动态定价算法
在此研究中,我们探讨了上下文动态定价的关键问题,提出了两种估值模型,并针对线性性假设和期望买家估值问题分别设计了算法,以实现较低的后悔率。
- 图神经汤普森采样
我们提出了一种基于图神经网络和汤普森抽样算法的在线决策问题求解方法,该方法在估计奖励函数的平均值和不确定性估计方面利用了图神经网络近似器,并证明在一定奖励函数边界的假设下,该方法在交互轮次数量和有效维度上能够达到线性次数的亚线性遗憾界,并且 - 朝向领域自适应的神经上下文赌博
通过从源域收集反馈,我们介绍了第一个用于情境强盗的通用领域适应方法。我们的方法在跨领域适应时维持亚线性遗憾界限,并在真实世界数据集上表现优于现有的情境强盗算法。
- 在线平台中自适应学习选择 - 排序
优化用户排序列表的算法将用户偏好和物品位置的变化考虑在内,通过上界调整预测的用户满意度分数,并选择最大化这些调整分数的排序操作,以在异质用户中个性化用户体验。该算法在实验中表现优于基线模型。
- MM在线学习众多量子对象
通过应用正则化跟随领导算法,在学习正半定矩阵的通用子集和其他量子物体时,证明了一个次线性的遗憾界,并建立了在量子信息理论中有用的各种矩阵分析结果。
- NeoRL:非情节强化学习的高效探索
我们研究了非时序强化学习(RL)的问题,其中系统动态未知,并且 RL 代理需要从单个轨迹中学习,即没有重置。我们提出了 Nonepisodic Optimistic RL(NeoRL),这是一种基于乐观原则面对未知动态的方法。NeoRL 使 - ICML基于函数先验的贝叶斯优化引导的高效黑盒对抗攻击
本研究提出了一种先验引导贝叶斯优化算法,用于黑盒对抗攻击,通过在查询 - based 攻击中结合白盒模型的梯度来改进查询效率。实验证明,与当前黑盒攻击算法相比,该算法在减少查询次数和提高攻击成功率方面具有明显优势。
- 非平稳环境下分类问题的自适应迁移学习视角
我们研究了一个具有非平稳标签转移的半监督分类问题,通过观察一组有标签的数据集和一系列无标签的协变量向量,我们的目标是预测每个协变量向量的相应类别标签,而无需观察除初始有标签数据集之外的真实标签。通过建立一个在任何给定测试时间内自适应地适应未 - 具有隐藏对称性的对称线性赌博算法
在高维线性赌博机中,通过模型选择来学习隐藏的对称性结构,我们的算法能够达到低预测误差并降低后悔程度。
- 关于连续时间在线学习的一点备注
连续时间模型中,我们提出了在线学习问题的连续时间算法,并给出了最优遗憾界的简明证明。
- 非退化函数的批量随机赌博机
该研究论文研究了非退化函数的批处理强盗学习问题,提出了一种名为几何缩减(GN)的算法,其后悔界限为 $\widetilde {\mathcal {O}}(A_{+}^d \sqrt {T})$,只需 $\mathcal {O}(\log\l - 智能和适应后验采样算法用于二元选择
我们研究了基于 Thompson Sampling 的有界奖励随机赌博算法。为了解决现有的与高斯先验的 Thompson Sampling 相关的问题相关后悔界限在 T≤288e^64 时是虚无的问题,我们导出了一个更实用的界限,将主要项的 - ICML可证明高效的对抗性不安静多臂赌博机强化学习:未知转换和赌博机反馈
通过使用一种创新的偏置对抗性奖励估计器和低复杂度指标策略,我们开发了一种新颖的强化学习算法来解决具有未知转换函数和敌对奖励的周期性不安定性多臂赌博机问题,以最大化总的敌对奖励,并确保在每个决策阶段满足瞬时激活约束条件,我们的算法在我们所考虑 - 具有重尾奖励的低秩矩阵赌博机
在随机低秩矩阵赌博模型中,我们提出了一种新的算法 LOTUS,用于处理具有重尾奖励的低秩矩阵赌博问题。该算法在不需要知道秩的情况下,能够以较低的遗憾界处理高维度情况。
- 在线 L - 凸优化
在线决策问题存在非线性组合目标函数,现有框架局限于子模函数定义域为单位超立方体子集,为克服这一限制,本文引入在线 L 自然凸最小化概念,并提出有效算法以在完全信息和强盗设置下最小化在线 L 自然凸函数,分析算法的遗憾以及演示在线 L 自然凸 - 低秩在线动态组合优化与双重上下文信息
电子商务领域中的个性化推荐和动态组合问题的新型低秩模型,通过有效算法和实验验证,实现了高效利用用户和商品特征,并显著改进了既有文献中的表现。
- 具有自我对弈的差分隐私强化学习
我们研究了具有差分隐私约束的多智能体强化学习问题,设计了一种基于乐观纳什值迭代和 Bernstein 型奖励的算法,能满足 JDP 和 LDP 的要求,并提供了关于后悔界的推广结果,是对多智能体强化学习中轨迹隐私保护的首批研究。
- (马尔可夫)潜力博弈中的纳什均衡收敛和无悔保证
本研究主要探讨了潜在博弈、马尔可夫潜在博弈和 Frank-Wolfe 算法在随机成本和强盗反馈下的应用,提出了一种具有足够探索性和递归梯度估计的变种算法,能证明收敛于纳什均衡并对每个参与者实现亚线性遗憾。该算法同时在潜在博弈中实现了纳什遗憾