- 无噪音奖励和无通信的最佳合作多人学习赌博机
合作多人奖励学习中,通信受限的策略选择问题;通过使用上界和下界置信度算法,解决信息不对称导致的动作选择问题,并达到对数和平方根极限遗憾值。
- 基于学习的线性二次高斯控制附加勘探的遗憾分析
通过数值模拟,我们分析了一种称为 LQG-NAIVE 的方法在控制未知部分可观察系统时产生的后悔效应,提出了扩展到 “闭环” 设置的 LQG-IF2E 方法,并验证了其与 LQG-NAIVE 的竞争性能。
- 高维线性多臂赌博机与背包问题
研究如何在高维度环境下应用稀疏估计和在线学习算法改进上下文强化学习中的多臂老虎机与背包问题,通过联合在线估计和原始 - 对偶框架,控制背包容量,从而取得了特征维度对数级依赖的次线性遗憾,同时在数据贫瘠和数据丰富情况下实现了最优遗憾结果。
- 多智能体合作学习系统的悔恨最小化算法
一个关于多智能体协同学习系统 (MACL) 的研究,重点探讨了序贯决策问题中低后悔率的学习算法对于通信网络设计的指导作用。
- 多任务在线学习:聆听邻域嗡嗡声
我们在一个能够通过网络与邻居交换信息的设定中研究多任务在线学习。我们介绍了一种分散算法 $ exttt {MT-CO}_2 exttt {OL}$,其遗憾度取决于任务相似性和网络结构之间的相互作用。我们的分析表明,$ exttt {MT-C - 从 Oja 算法到乘法权重更新方法及应用
奥贾算法是一个众所周知的在线算法,主要用于随机主成分分析的背景中。我们进行了一个简单但新颖的观察,即当应用于共享公共特征向量的任意对称矩阵序列时,并不一定是随机的,奥贾算法的遗憾可以直接以预测专家建议问题的众所周知的乘积权重更新方法的遗憾为 - 全局预算平衡下的双边贸易中无懊悔学习
在线版本的双边贸易问题中,引入全局预算平衡的概念,为对抗性输入提供了首个无悔算法,其中包括全反馈模型和部分反馈模型下的回报衡量标准。
- 经纪人的在线学习理论
在线学习视角下研究交易者间的经纪服务,在不同情况下,通过算法实现不同的后悔率和界定密度。
- 多用户延迟反馈中的改进 EXP3 及其自适应变体在对抗性赌博中的应用
对于带有延迟反馈的对抗性多臂赌博问题,我们设计了一种改进的 EXP3 算法 MUD-EXP3 来处理多用户延迟反馈,同时提出了一种自适应算法 AMUD-EXP3,这两种算法在实验中被证明是正确且有效的,并给出了关于遗憾的理论分析。
- 社会福利的自适应最大化
旨在最大化社会福利,我们研究重复选择政策的问题,由私人效用和公共收入构成的加权和。通过实验证明,我们获得了与误差下界相匹配的上界,表明福利最大化比多臂赌博问题更困难,且我们的算法实现了最佳速率。
- 拜占庭弹性的分散式多臂赌博机
该研究通过开发一种完全分散的鲁棒上置信界算法,将信息混合步骤与不一致和极端值的截断步骤结合起来,以恢复分散合作多臂赌博中的有效行为,提高正常代理的表现。该算法在遗憾方面不劣于单代理 UCB1 算法,并且所有正常代理的累积遗憾严格优于非合作情 - 上下文环境中的二价点击计费竞拍在线学习
研究在线学习在上下文广告竞拍中的应用,通过算法获得最小化收入损失的目标,针对点击率进行估计,提出了两种有效的上下文拍卖算法,并通过实验验证了其有效性和超凡性能。
- 跟进也很重要:通过后续服务改进上下文强化学习
设计了一个新算法 poLinUCB,用于处理具有后续服务上下文的情境强化学习问题,并在标准假设下实现了紧凑的遗憾值。
- 连续的状态 - 动作空间中的近连续时间强化学习
通过使用泊松时钟模型与连续时间,本研究旨在克服强化学习中离散时间与离散状态的局限性,并且提出了一个算法来应对连续时间下的学习和规划任务,其在近连续时间中实现了阶悔恨度为 $\tilde {\mathcal {O}}(\sqrt {T})$ - 绕过模拟器:近似最优的对抗线性情境赌博机
通过实现无需模拟器的多项式时间算法,我们在拥有线性上界误差的情况下,提高了对抗性线性上下文赌博问题的表现,实现了近乎优化的后悔度,同时保持了计算效率。
- 互动和集中的差分隐私对于赌博机
通过交互式差分隐私的视角,研究了具有可信中心决策者的隐私问题以及与之相关的 bandit 算法和后悔。
- 线性动力学的在线控制:基于数据驱动的方法
该论文研究在线控制问题,通过使用单一无噪声轨迹计算干扰累积并通过在线梯度下降更新参数,提出了一种数据驱动的策略来减小控制器的后悔。
- 重复多单位按竞标付费拍卖中的学习
通过离线动态规划方案,设计了在线学习算法以解决多次多单位逐标付款拍卖中的出价问题,并获得关于遗憾上界的结果,研究表明这种拍卖方式产生更高的收入。
- 在线强化学习的样本复杂度界定
在线强化学习中的数据效率是一个核心问题,本文针对有限时间不均匀马尔可夫决策过程,证明了一种修改版的单调值传播算法在理论上达到了最小化遗憾度的最优性,并且没有任何预烧成本,其样本复杂度也是最优的。
- 基于偏好的主动查询的情境强化学习和模仿学习
我们考虑上下文强化学习和模仿学习中的问题,学习者缺乏执行动作奖励的直接知识,但可以主动查询专家以比较两个动作并获得嘈杂的偏好反馈。本文提供一种算法,利用在线回归预测与函数类相关,在选择动作和决定何时查询时达到最小后悔和最小查询的目标。该算法