本文主要研究随机最短路径问题中的对手成本和未知转移,并提出了一种新的算法,可以在有限的次数内找到最优解,此外,我们还提出了一种新的算法,可以在特定情景下近似达到最优解。
Feb, 2021
研究了在线最短路径问题及其各种监控模型,在加权有向无环图中寻找一条路径以使其对应的边权和尽可能小。提出了一种算法,将累积损失最小化,并介绍了其应用于包交换网络中路由的模拟结果。
Apr, 2007
本文介绍了关于随机最短路径问题的算法和策略,提供多种保证路径长度分布,而不仅是期望值最小的解决方案,并对最近在马尔科夫决策过程的研究成果进行了应用。
Nov, 2014
本文提出了一种适用于多臂赌博机问题的解决方案,只需要以线性时间复杂度存储未知参数,可以处理一般的掌握参数相关性的问题,并用于对网络中的最大权匹配、最短路径及最小生成树计算问题的解决。
Nov, 2010
研究用 Online Mirror Descent 框架的各种新技术,包括改进的多尺度专家算法、从一般随机最短路径到特殊无环情况的降低、倾斜的占用度量空间以及添加到成本估计器的新校正项等,以解决带对手成本的随机最短路径问题并同时减小学习者方差和最优策略的偏差。
Dec, 2020
该研究针对交通路线推荐问题,提出了基于拥堵信息的多臂赌博机和上下文赌博机算法,并通过仿真实验证明了算法的无后悔性。
Jan, 2023
本文提出了对抗性 SSP 模型,包含时间上对成本的不良变化和未知转移,其开发了第一个对抗性 SSP 算法,并证明了高概率的回报上限。
Jun, 2020
本文介绍了一种解决随机最短路径问题的算法,其中代理必须通过在有限次数的游戏中获得最佳策略,从而在最短期望代价下达到目标状态。通过探究悔恨最小化和最小瞬时代价的根号反比关系,本文提出了一种不依赖于最小代价的算法,并展示了任何学习算法在最坏情况下都要有至少 Omega(Bstar 根号乘以 S、A、K 的数量)的悔恨。
Feb, 2020
针对多个用户访问相同频道的自组织网络,本研究在缺乏中央协调时,使用探索和承诺策略,通过传输和感知信息的方式,实现接近最优的频道分配,进而提高网络吞吐量,同时击败了现有的算法。
Jan, 2019
此篇研究考虑了一个名为不安定多臂赌博机问题的模型,提出了一种探索和利用并行局部的策略,使得在一定的系统参数有限制时,能够获得对数级次的回报,而在缺乏关于系统的任何信息时,能够获得接近对数水平的回报。同时,也将问题扩展到了多个分布式参与者共享资源的情况,并得出相应结果。结果对于各种动态系统和通信网络以及金融投资的自适应学习都有应用。