- 随机线性赌博机中的近似推断贝叶斯赌博算法
提出了一个通用的理论框架来分析具体推断存在时的随机线性赌博带中的贝叶斯赌博算法,得到了 Linear Thompson Sampling 和 Linear Bayesian Upper Confidence Bound 在近似推断时保持原有 - 基于近似采样的强化学习更高效的随机探索
这篇论文提出了一个算法框架,结合了不同的近似抽样方法和最近提出的 Feel-Good Thompson Sampling (FGTS) 方法,在线性 MDPs 中应用时,我们的遗憾分析得到了关于维度的最好依赖关系,超过了现有的随机算法。在一 - KDD线性上下文强化学习与混合回报:重温
在混合奖励设置下,我们研究了线性情境赌博问题,提出了适用于具有不同参数的各个臂传递奖励模型,并引入了新的探索系数的新算法 HyLinUCB,通过实验证明其在合成和真实数据集上的性能明显优于其他算法。
- 次线性时间下的拟阵半赌博问题
研究了 matroid semi-bandits 问题,提出了一个计算更便宜的算法 FasterCUCB,基于对内积权重的近似最大重量基的动态维护,能够保证与 CUCB 相匹配的遗憾上限,用来最大化期望累积线性回报。
- 关于具有多臂赌博反馈的激励兼容在线学习中确切真实性的价格:WSU-UX 的遗憾下界
自利的专家问题中希望设计出一种激励兼容(IC)算法,使得每个专家最佳策略是真实报告,同时确保算法与最佳信念专家的遗憾是亚线性的。
- 经证明高效的部分可观察风险敏感强化学习与事后观测
该论文通过引入后见观察机制,研究了部分可观测环境下风险敏感强化学习的悔恨分析,提出了在部分可观测马尔可夫决策过程框架下优化累积奖励的新方法。通过严格的分析证明了算法在模型降级为风险中性或完全可观测设置时,能够实现多项式悔恨。该研究对强化学习 - 利用混淆和选择偏倚离线数据强化改进赌博算法:一种因果方法
在这篇论文中,我们研究了一个代理在在线学习阶段利用离线数据来提高每个动作奖励分布估计的困境。我们从因果结构的角度出发,将这个问题分为混淆偏差和选择偏差,并从有偏观测数据中提取鲁棒的因果边界。这些边界包含了真实的平均奖励,并能有效地指导代理学 - 部分可观察排队网络中的最优入场控制学习
我们提出了一种高效的强化学习算法,用于在部分可观察排队网络中学习最佳的入场控制策略,其中部分可观察性是指只有网络的到达和离开时间是可观察的,最优性是指在无限时间内的平均持有 / 拒绝成本。
- 公平最优多智能体赌博机
研究多智能体多臂赌博学习问题,以无通信和有限奖励为前提,提出了一种分布式拍卖算法并进行样本最优匹配学习和新的拍卖决策策略,通过新颖的基于次序统计量的后悔分析带来了全新的性能,实验模拟表明性能依赖于对数时间。
- 在线张量学习:计算和统计权衡,适应性和最优遗憾
本文提出了一种在线低秩张量恢复的概括性框架,包括线性和广义线性模型,特别地,在线张量补全和在线二进制张量学习的应用中,通过在线黎曼梯度下降算法实现了线性收敛并在所有应用程序中恢复了低秩分量,还在在线张量回归方面进行了悔恨分析,通过数值结果验 - 自回归系统外部输入下的最小方差控制的有限时间遗憾界
本文提出了一种使用探索输入的自适应最小方差控制算法 PIECE,该算法具有有限时间后的悔恨上限,并通过仿真实验证明了其在初始学习阶段具有比标准方法更优异的表现,这是首次针对最小方差控制器提出有限时间后悔上限的研究。
- 具有异构观测数据的联邦离线策略学习
本文提出了一种基于聚合局部策略和双重稳健离线策略评估和学习策略的联邦策略学习算法,并针对异构数据源的观测数据情况,在不交换原始数据的情况下,在中央服务器上学习分布于异构数据源上的决策政策。
- 贝叶斯劝服下的动态定价与学习
该研究探讨在线广告和动态定价设计的问题,使用贝叶斯说服模型来研究信号对买家定价和购买决策的影响,提出了一种具有低后悔率的在线算法。
- ICLR具有切换成本的近优敌对强化学习
本文尝试解决如何开发一种可证明高效的带有转换代价的对抗性 RL 算法的问题,并提出了两种新颖的降低转换代价的算法,其回归分析证明了它们的近乎最优性能。
- 通过可证明遗憾界实现分布式和风险敏感的强化学习
研究了通过分布式强化学习方法实现风险敏感强化学习的后悔保证,提出了两种新的 DRL 算法,并通过样本复杂度桥接了 DRL 和 RSRL。同时还改进了现有的下限,并提出了更紧的下限。
- 顺序信息设计:在暗中学习说服
研究了在信息设计问题中,如何让一个自利的决策人在面对连续决策时遵循某些规则,并提出了相应的学习算法,该算法可以保证提示者和接收者在不同条件下的回报。
- 概率触发臂或独立臂组合半匪徒问题的无关批量大小的后悔界限
本研究探讨组合良带 (Bandits) 的算法,针对其大小批次 (K) 对后悔束缚的依赖性进行优化,发现一种可替代平滑性条件的新型触发概率和方差调节 (TPVM) 条件,进行后悔分析并提出基于置信区间和方差的 BCUCB-T 算法,将大小批 - AAAI层次专家赌博问题的遗憾分析
本文研究了一种扩展的标准赌博机问题,其中有 R 层专家。多层专家按层选择,只有最后一层的专家才能玩臂。学习策略的目标是在这种分层专家情况下,尽可能减少总遗憾。本文首先分析遗憾总数与层数线性增长的情况。然后,我们专注于所有专家都在进行 Upp - 元学习对抗性赌博机
本文研究了跨多任务的在线学习问题,设计了一个统一的元算法,旨在优化平均性能。该算法在多臂老虎机和乐观线性优化两个重要情境下提供了特定保证,通过任务平均后悔的降低来提高性能。
- IJCAI匹配市场中的赌博学习的汤普森抽样
本文针对未知偏好的两侧市场匹配问题,提出了首个 Thompson Sampling 算法的回报分析,证明 TS 算法在实践中优于 ETC 和 UCB 算法。