- 完全无约束的在线学习
我们提供了一种在线学习算法,可以在不知道 G 或∥w∗∥的情况下,获得在 G-Lipschitz 凸损失函数上的遗憾 G∥w∗∥√(Tlog (∥w∗∥G√T)+∥w∗∥^2+G^2),这与具有此类知识的最佳界限 G∥w∗∥√T 匹配(除了 - 实例最优在线学习的 SMART 方法
我们提出了一种在线学习算法 —— 通过单调适应性遗憾追踪(SMART)进行切换,它适应数据并实现了在每个输入序列上相对于领导者跟随(FTL)策略的表现和任何其他输入策略的最坏情况保证同时有效的遗憾,通过我们的算法,我们证明 SMART 政策 - 单调随机优化的半强盗学习
通过提供一种具有与最佳近似算法(在已知分布下)相对于平方根的 T 乘以 log T 束缚的通用在线学习算法,在半探测器环境中解决了在一大类 “单调” 随机问题中对于未知分布是否能够获得良好(近似)算法进行学习的问题。我们的框架适用于随机优化 - 无过去数据的唤醒过去概念:基于在线安慰剂的逐步分类学习
通过在课堂渐进学习中使用替代样本和在线学习算法,我们提出的方法在保留旧课程知识的同时,有效地适应新课程,无需额外的监督或内存预算,并超过其他课堂渐进学习方法的性能。
- O-RAN 中基于在线学习的虚拟基站自适应资源分配
虚拟基站(vBS)中资源分配的在线学习算法,平衡有效吞吐量和虚拟基站能耗,在各种环境下实现零平均最优差距,节约高达 64.5% 的能耗。
- ICML使用付费随机专家在在线分类中平衡支付和准确性
本研究介绍了一种基于 Lipschitz bandit 和代理损失的在线学习算法,使用有偿随机专家进行在线分类决策,并与标准 Lipschitz bandit 设置相比,总成本在 T 轮后不超过预测器的成本上限。
- 可分离随机逼近框架下的在线学习
我们提出了一个基于分离随机逼近框架的在线学习算法,其中对于某些具有线性特性的模型参数,我们采用递归最小二乘(RLS)算法进行更新,然后根据更新后的线性参数,采用随机梯度法(SGD)更新非线性参数,该算法可以理解为一种随机逼近版块坐标梯度下降 - 强健在线学习的最优性
本研究提出了一种基于 robust loss function 的在线学习算法,通过选择合适的 scaling parameter 和步长,可以达到最优的收敛速度并且实现在均方距离和 Hilbert 空间强收敛速度的最优容量相关率,这两个结 - 固定价格数据市场中的均衡与学习:外部性
该论文提出了一种模拟现实世界数据市场的模型,研究了买家之间存在的负向外部性问题,进而探讨了不同干预市场方式下的 Nash 均衡状态及社会福利最优的情况,并给出了一种适用于未知估值的在线学习算法。
- 在线合同设计的样本复杂度
研究在线环境下的隐藏操作代理问题,介绍一种在线学习算法,提出一个关于 Stackelberg 遗憾的上界,并使用球形编码的覆盖数来限制契约设计的困难性和契约设计中的离散化误差,并提出解决方案,给出关于合同和行动空间的无限制上界。
- 学习双人混合马尔可夫博弈:核函数逼近和相关均衡
本论文提出了一种基于优化原则的在线学习算法,通过在函数空间中最小化对偶差来寻找 Nash 均衡点,在马尔科夫博弈中进行非线性函数逼近,解决了高维函数空间中的探索问题,并扩展了几种算法,其中一个可以实现更紧的遗憾上界,另一个可以应用于神经网络 - ICML共享有限容量臂的多次随机赌博机
研究了多臂赌博机问题中的可共享臂设置,提出了一个用于评估可共享臂容量的估计器以及一个在线学习算法,并验证了其在 5G 和 4G 基站选择中的有效性。
- AAAI乐观 Whittle 指数策略:动态赌博机的在线学习
该研究提出了一种基于 Whittle 指数策略的在线学习算法 UCWhittle,使用上限置信度方法学习转移动力学来解决具有未知状态转移的 RMAB 问题,该算法在三个不同领域均表现出比现有在线学习算法更好的性能。
- 计数型赌博机的完整策略遗憾界
研究了限制对手策略的措施,旨在实现最强版本的策略后悔,即完全策略后悔。提出概念式为 “计票老虎机” 的在线学习算法,并针对该算法提供了一种具有可接受保证的算法,证明了算法的近似最优性。
- MM非平稳环境中的计算卸载在线算法
本文提出一种基于乐观性策略的在线学习算法,用于解决任务卸载场景下的多臂老虎机问题,以实现最小化端到端延迟。研究结果表明,在动态环境中,严重贬低过去的奖励的重要性。该算法表现优于现有算法,优化效果高达约 1 秒。
- 机器与人类交替学习
本文提出一种具有自适应性的算法,使得现有的强化学习代理可以在机器和人类代理之间进行控制转换,在类似环境中可以找到多个转换策略序列,并演示了该算法在半自动驾驶场景中具有优越性。
- 高效嵌入动态知识图谱
提出了一种上下文感知的动态知识图谱嵌入方法 (DKGE),该方法利用两个有注意力机制的图卷积网络、一种门控策略和翻译操作,通过双重表示 (知识嵌入和上下文元素嵌入) 联合模型化实体和关系及其环境,以快速获取更新的知识图谱嵌入,同时支持从头开 - EMNLP宏语法及整体触发在有效语义解析中的应用
该研究提出了一种新的在线学习算法,利用宏语法缓存已发现的有用逻辑形式的抽象模式,以及利用整体触发根据句子相似度高效检索相关模式,其在 WikiTableQuestions 数据集上达到 43.7% 的准确率和 11 倍的速度提升。
- NIPS可伸缩的广义线性臂:在线计算与哈希
提出了新的可扩展算法来解决广义线性赌博机问题,基于在线计算的新算法(GLOC)将任何在线学习算法转化为 GLB 算法,同时,通过内积搜索,为选择大量臂的情况设计了新算法,并提出了一种快速准确的哈希键计算方法,并进行了实验验证。
- NIPS学习度量的非参数在线回归
研究在线非参数回归算法,可以学习回归函数平滑的方向;基于回归函数梯度外积矩阵 G,学习 Mahalanobis 度量(可以自适应 G 矩阵的有效秩),同时考虑到 G 的频谱,限制在相同数据序列上的遗憾;作为分析的初步步骤,将 Hazan 和