- 元梯度搜索控制:提高 Dyna 风格规划效率的方法
通过引入一种在线、元梯度算法,我们改善了规划过程的效率,进而提高了整体学习过程的样本效率。我们的方法避免了传统规划方法的几种病态现象,并有望在未来的研究中为大规模模型驱动的强化学习系统的设计提供有用的参考。
- EON-1:一种用于近传感器极端边缘在线特征提取的脑启发处理器
在边缘人工智能应用中,使用脉冲神经网络(SNNs)进行设备上的在线学习和自适应,以实现对不断变化的环境中产生的传感器数据的快速处理。我们提出了一种脉冲神经网络的脑启发式处理器 EON-1,用于在近传感器极端边缘在线特征提取,该处理器集成了快 - ICML优化复杂绩效指标的通用在线算法
我们介绍和分析了一种通用的在线算法,适用于二元、多类和多标签分类问题中的各种复杂性能指标,该算法的更新和预测规则简单且计算效率高,无需存储任何过去的数据,而且对于凹函数和平滑度函数达到了 O (ln n/n) 的遗憾,并通过实证研究验证了所 - 学习覆盖:在线学习和优化与不可逆决策
通过限制在线学习和优化策略的探索次数,将不确定性减少为最低程度,从而最小化成本并实现覆盖目标。
- 未知分布的长期投资中的均值方差组合选择:在线估计,不确定性下的风险厌恶与算法的普适性
通过在线学习框架将原模型重新设计为一种动态策略,以在统计假设下不受限制地接近真实总结的组合的经验效用、夏普比率和增长率。
- 通过延迟的在线到 PAC 转换推导混合过程的归纳界
通过将训练数据从一个混合过程进行采样,我们研究了统计学习算法在非独立同分布的环境中的泛化误差,并基于延迟反馈的在线学习提出了一个分析框架。特别地,我们展示了即使数据序列是从混合时间序列采样得到的情况下,通过存在一个具有有界遗憾的在线学习算法 - 在线学习中的结构化预测
在线学习环境下的结构化预测问题的理论和算法性框架的研究。通过研究,我们发现我们的算法能够推广到监督学习环境中的优化算法,并且在数据非独立同分布的情况下也能达到相同的风险上界。此外,我们还考虑了一种特别设计用于非平稳数据分布(包括对抗性数据) - 快速学习游戏的最后迭代收敛需要健忘算法
通过在线学习的自我对弈是解决大规模两人零和游戏的主要方法之一,尤其流行的算法包括乐观的乘积权重更新(OMWU)和乐观的梯度下降 - 梯度上升(OGDA),本文证明了 OMWU 存在潜在的较慢的最后迭代收敛问题。
- 在线强盗学习伴随离线偏好数据
采用有限臂线性赌博机模型作为在线学习的典型模型,通过建模生成数据的专家的能力,我们提出 warmPref-PS 算法,利用带有噪声偏好反馈的离线数据集实现在线学习,并在理论和实证评估中得到支持。
- 量子过程的在线学习
通过在线学习和阴影层析成像程序,我们研究了适用于量子过程的在线学习任务,尤其着重于具有有界门复杂性和 Pauli 通道的在线学习模型。我们还提供了一种有效的阴影层析成像程序用于 Pauli 通道,并对在线学习的上界和计算下界进行了补充。
- 一种公理化方法的损失汇总及适应性汇总算法
针对在线学习推荐的一种变体聚合算法,该算法基于广义聚合函数,具有与 AA 相似的理论性质,如贝叶斯更新和对广义和损失的时间无关边界。
- 主体 - 代理多任务:最优合同的统一性及其通过仪器回归的高效学习
这项研究探讨了多任务委托 - 代理问题,通过研究成本函数、边际效用和在线学习方法等,寻求了最优合约的解决方案。
- FCOM:基于表示学习的联合协作在线监控框架
在线学习通过表示学习和联合协作 UCB 算法、理论分析、仿真研究以及去中心化认知退化监测在阿尔茨海默病中展示了显著的潜力,以动态分配有限资源以监测大量的进程,有效平衡产生高奖励的进程的利用和不确定进程的探索。
- MetaCURL: 非平稳凹效用强化学习
我们通过元算法和专家集成的方法在非平稳环境(变换的损失和概率转换)中探索在线学习在无环节马尔可夫决策过程中的应用,重点研究了处理凸性性能准则的经典强化学习的扩展问题 CURL。我们的方法能够在部分信息下,不需要先验的 MDP 更改知识,实现 - 非平稳环境下分类问题的自适应迁移学习视角
我们研究了一个具有非平稳标签转移的半监督分类问题,通过观察一组有标签的数据集和一系列无标签的协变量向量,我们的目标是预测每个协变量向量的相应类别标签,而无需观察除初始有标签数据集之外的真实标签。通过建立一个在任何给定测试时间内自适应地适应未 - KDD在线深度学习的机遇与挑战教程回顾
机器学习算法在当今世界中变得不可或缺,支持和加速我们根据手头数据做出决策的方式。本文回顾了在 ECML PKDD 2023 上举办的我们的在线深度学习机会与挑战教程,并简要概述了在在线学习环境中应用神经网络的机会和潜在风险,其中使用了 Ri - 线性潜在匪徒中利用离线数据
通过建立 de Finetti 定理和提出 SOLD 方法,该研究论文展示了潜在赌博机框架的广泛适用性,以及在线学习和离线数据集问题的解决方案,并在合成数据和电影推荐数据上进行了实验证明。
- 具有半绑定反馈的随机在线一致预测
通过修改模型输出一组标签而不是单个标签,符合预测已成为一种可行的不确定性量化策略。在在线学习设置中,我们考虑了半强盗反馈,其中只有在真实标签包含在预测集中时,我们才能观察到真实标签。我们提出了一种针对这种情况的新颖符合预测算法,并证明它相对 - 在线学习中的交易量最大化
通过在在线学习框架中的交易者之间进行经纪,我们研究了经纪的关键问题。我们探索了经纪机构如何最大限度地提高交易量,并分析了对于交易者来说最优的交易策略和遗憾率。
- 带 Massart 噪声的半空间在线学习
在存在 Massart 噪声的在线学习任务中,我们研究了广义线性分类器的基本类,并提出了一个高效的算法,达到了错误界限,与在线对手对抗。我们还将在线学习模型扩展到 k 臂上下文强盗设置中,通过使用我们的 Massart 在线学习器设计了一个