- 多学习者环境中的战略使用
现实世界的系统中,用户在一组服务中进行选择,通过在线学习算法,这些服务可以自我优化并最大化一些回报,而用户可以策略性地选择服务以追求他们自己的回报函数,我们分析了一个策略性用户在多个可用的服务中进行选择的情境,并研究了损失函数在这种情境下的 - 具有噪声请求估计的无悔缓存
提出了一种名为 Noisy-Follow-the-Perturbed-Leader(NFPL)算法的在线学习算法来设计具有遗憾保证的缓存策略,在请求估计有噪声的情况下,该算法具有亚线性遗憾,并通过实验验证了该方法的有效性。
- 在线推荐系统中激励高质量内容
本文研究了在线学习算法对内容创作者质量和创作动机的影响,发现 Hedge 和 EXP3 等算法会促进内容低质次,提出了一种基于惩罚低质次内容的算法以激励高质次的内容创作。
- 无悔在线强化学习中的对抗损失和转换
本篇论文提出了一种在线学习算法,能够同时应对恶意对手的损失函数和状态转移,并且随着对手的恶意程度而平稳地增加遗憾,同时采用黑盒约简方法达到无需先验知识的效果。此外,本文还对算法进行了改进,在生成损失的环境易于控制的情况下可以实现较小的遗憾。
- 分层强化学习中鲁棒的知识传递
本文研究分层强化学习的并行传输学习框架,提出了新的在线学习算法以及转移来源选择机制来实现对高层任务的常数后悔性,在多低层任务的情况下也能获得更大的状态行为空间的利益。
- 学习算法和推荐系统中的风险规避
研究在线学习算法中存在的风险规避现象,它如何影响推荐系统的需求和内容创作者的创作,以及如何通过平衡内容的稳定性和质量来解决这一问题。
- 选择性信用分配
通过对选择性赋权的 TD 方法进行统一描述和理解,介绍了如何将赋权应用于基于值的学习和规划算法中,以调节预测和控制问题中的后向信用分配。在这个空间中,我们还确定了一些现有的在线学习算法,它们可以作为特例进行选择性分配信用,并增加了一些可以反 - ICLR在两队零和博弈中收敛到纳什均衡
研究内容涵盖电子竞技中的机器学习,多代理生成对抗网络的表现力,以及两队博弈中的优化问题和 Nash 均衡解的解决方案。通过考虑全信息反馈下的游戏,对在线学习算法的能力进行了讨论,并提出了一个基于控制论技术的一阶方法用于解决该类问题,该方法能 - MM在线学习的重复囚徒困境模拟人类行为
本文研究了在线学习算法在囚徒困境游戏中的行为,探究了多臂老虎机、上下文老虎机和强化学习等算法在这种情景下的能力及其对人类行为的拟合度,并从多智能体竞争和策略动态方面得出了许多结论。
- 赌博机中渐进式保守探索的算法改进
本文研究在线学习算法如何在现实应用中优化基线策略并介绍了一种新的基于 Conservative Constrained LinUCB 算法的解决方案,并在多个合成和真实世界的问题中超越了现有的保守乐队算法。
- 基于位置辅助的毫米波波束在线学习
本文通过多臂老虎机框架,提出了一种在线学习算法,用于选择和优化天线成对的方向,以最大化功率角谱在该位置上的峰值,并在较短的时间步数内实现与无遗漏搜索相当的性能。
- 在线线性二次控制
我们研究了控制具有已知嘈杂动力学和对抗选择二次损失的线性时不变系统的问题,并提出了第一种在这种情况下保证 O(sqrt(T))遗憾的有效在线学习算法。我们的算法依赖于对系统稳态分布的新型 SDP 松弛。与以前提出的松弛相反,我们的 SDP - 在线学习算法的精确易处理性分析及其在正则化回归和主成分分析中的应用:一个扩展界限研究
我们提出了一个分析在线学习算法确切动态的框架,重点关注高维缩放限制条件下的算法表现并应用到在线正则化线性回归和主成分分析两个具体例子。随着环境维度趋向于无穷大,我们表明:由算法提供的目标特征向量和其估计的时间变化联合经验测量将弱收敛于确定性 - NIPS实时车辆位置问题
本文提出一种新颖的问题:如何在空间和时间上变化的情况下放置车辆以实时满足乘客的需求。研究者使用了四个主要美国城市一千万次乘车请求的数据集,证明了这种请求具有显著的自我相似性,并提出了分布式在线学习算法用于解决实时车辆定位的问题,并且通过观察 - 高效在线学习和拍卖设计
本文研究了对手环境下的在线学习算法的设计,提出了广义随机扰动跟随者算法,且证明了在一定条件下它是牛逼优而且可以实现消失的后悔;同时,本文也提出了另一个基于拍卖设计的框架,用于帮助拍卖师在选举获得最佳的拍卖方式方面做出决策,并且得到相应的应用 - 在线保序回归
本文研究了在线同位型回归问题中的最优在线学习算法,提出了使用指数权重算法结合同位型覆盖网的方法,并对其进行了理论分析和计算可行性的研究;同时还扩展了该算法在绝对损失函数的应用。
- NIPS在线学习漂移游戏分析及其在提升中的应用
提供了一种基于漂移博弈框架内的极小极大分析的在线学习算法设计通用机制,通过转换不同的在线学习场景为不同的漂移博弈场景,应用一系列松弛技巧解决
- 一种广义的在线镜像下降算法及其在分类和回归中的应用
本文提供了一种新的方法,将在线预测算法在线镜像下降推广到具有通用更新的时间变化正则化器,并演示了该方法的强大功能。
- 在线学习中稳定性与后悔之间的相互作用
本文研究在线学习算法的稳定性及其对可学性(有限后悔)的影响,提出了一种称为 “前向后悔” 的新指标,用于测量在线学习算法的预测性能,证明了对于在线优化问题,稳定性等价于后悔有界,且有界前向后悔等价于有界后悔,在分析现有算法的可学性方面提供了 - ICML面向自适应对手的在线强盗学习:从遗憾到策略遗憾
该论文提出了当对手可以适应在线算法的动作时,标准遗憾定义变得不再有效,定义了替代的政策遗憾概念,用于测量在线算法在适应性对手下的性能,并研究了在线赌徒问题的情况,表明任何赌徒算法都无法针对带有无界内存的适应性对手保证次线性的政策遗憾,但同时