- 利用可行集的曲率在在线凸优化中获得快速速率
基于在线凸优化和曲率的可行集合的分析,本文提出了一种新的方法通过利用可行集合的曲率来实现快速收敛,不仅可以适用于凸损失函数,同时还能在随机、对抗性和受干扰的环境下获得良好的性能。
- 分布式内核赌博机中使用共享随机采样的最佳订单遗憾
我们提出了第一个算法,它以次线性的通信成本实现了最佳的(以集中式学习定义的)遗憾顺序,通过局部智能的均匀探索和与中央服务器共享随机性这两个关键组成部分与 GP 模型的稀疏近似共同作用,能够以递减的通信速率保持集中设置的学习速率。
- 解耦学习与决策:用一阶方法突破在线资源分配中的 $O (√T)$ 障碍
在线线性规划在收入管理和资源分配中起着重要作用,本文提出了一种新的算法框架,将学习与决策分离,首次展示了基于一阶方法的在线算法可以达到 O (T^{1/3}) 的遗憾,同时进行了数值实验以验证理论发现。
- 一种带有演化操作的赌博机方法进行模型选择
该研究论文将模型选择问题视为无限臂赌博机问题,通过部分训练(资源分配)选择模型,准确率作为奖励,最佳模型与最终选择模型之间的期望准确率差异作为遗憾,提出了一种基于进化算法的新型组合方法 Mutant-UCB,通过在三个开源图像分类数据集上的 - 非平稳潜在自回归赌博算法
我们考虑具有非平稳收益的随机多臂赌博问题,提出了一个称为潜在 AR 赌博的新环境,在这个环境中,臂的平均收益随时间变化是由未知的、潜在的、自回归(AR)阶数为 k 的状态引起的。针对已知的 AR 阶数 k,我们提出了一个算法,在这种情况下实 - 通过原始 - 对偶策略梯度算法学习无限时域平均奖励受限马尔可夫决策过程的通用参数化策略
本文研究了无限时段平均回报约束马尔可夫决策过程(CMDP)。在我们的知识范围内,该工作是第一个深入探讨了具有一般策略参数化的平均回报 CMDP 的遗憾和约束违反分析。为了解决这个挑战,我们提出了一种基于原始对偶的策略梯度算法,能够在确保低遗 - 自适应约束下的自训练近最优强化学习
多智能体强化学习中,通过引入自适应约束,我们设计一种基于消除的算法,在低批次复杂度下实现了对马尔可夫博弈的极小后悔,并且证明了匹配上界的批次复杂度下限,进一步地在理解低适应性的多智能体强化学习方面提供了首个一系列结果。
- GuReT:区分罪恶和遗憾相关文本
人类决策和情绪,尤其是罪恶感和后悔的复杂关系,对行为和幸福感有重要影响。本研究介绍了一个数据集,专门研究罪恶感和后悔以及它们特有的文本标记之间的关系,填补了情感计算研究中的一个重要空白。我们将罪恶感和后悔识别视为二元分类任务,并采用三种机器 - 面向广告牌广告的无悔时间槽分配
为了创建和最大化客户之间的影响力,广告商对此进行了研究并提出了一种利用影响力提供商的广告技术,其中影响力提供商的目标是通过提供所需的推广浏览量来减少不满意程度,并提出了四种有效的解决方案以优化这一问题,实现了较低的不满意程度和更短的计算时间 - 印地语天城文多类遗憾检测
社交媒体上印地语言使用者的数量在近年来大幅增加。后悔是我们日常生活中常见的情感体验。本研究聚焦于印地语言中的后悔表达,通过实证研究、语言分析和深度学习模型等方法,探究了后悔在社交媒体平台上的影响、表达方式以及常见领域,结果显示在人际关系领域 - 预测成功的四个方面:校准性、预测能力、随机性和遗憾
机器学习关于预测,然而预测的有效性仅通过其评估得以体现。我们展示了校准和遗憾在评估预测中的概念等价性,并将评估问题构建为一个预测者、赌徒和自然之间的博弈。通过对赌徒和预测者施加直观限制,校准和遗憾自然而然地出现在这个框架中。此外,这个博弈将 - 广义低秩矩阵强盗问题的高效框架
研究了随机上下文低秩矩阵赌博问题,提出了 G-ESTT 框架和 G-ESTS 框架,分别达到了有限次后悔的上界,并进行了一系列实验来验证算法的可行性和性能。
- 自适应线性二次控制的非渐进遗憾分析及模型误差
对于自适应控制中的预先训练策略,我们研究了一个自适应线性二次控制问题,在这个设置中学习者具有动力学的一组基矩阵的先验知识。我们提出了一种使用这个先验知识的算法,并对通过与系统进行 T 次交互后的预期遗憾给出了上界。
- 一种层次最近邻方法用于背景环境下的 Bandits
在这篇论文中,我们考虑了度量空间中的对抗性背景下的上下文强化学习问题。虽然论文《带有强化学习反馈的最近邻》解决了该问题,但当比较器策略的决策边界附近存在许多上下文时,会出现高度的后悔。本文中,我们通过设计一种算法来解决这个问题,可以在计算后 - 专家引导的贝叶斯优化方法用于已知系统的人机交互式实验设计
通过高通量(批处理)贝叶斯优化和人类决策理论,本文提出一种方法,使领域专家能够影响最优实验的选择。该方法旨在解决人类在离散选择上比连续选择更擅长的假设,并在每次迭代中通过求解增广多目标优化问题返回备选解集合,从中专家选择一个进行评估。研究表 - MM具有单调对手的对决优化
用一个在线算法设计 dueling optimization 问题的最优解,最小化迭代复杂度和总成本。
- 线性赌博机的集成抽样:小集成即可
我们提供了第一个对于随机线性老虎机设置的集成抽样方法的有用、严格的分析,特别是在标准假设下,对于一个交互时域为 T 的 d 维度随机线性老虎机,在大小约等于 d log T 的集成抽样方式下,所产生的后悔从数量级上被界定为 (d log T - 无噪音奖励和无通信的最佳合作多人学习赌博机
合作多人奖励学习中,通信受限的策略选择问题;通过使用上界和下界置信度算法,解决信息不对称导致的动作选择问题,并达到对数和平方根极限遗憾值。
- 基于学习的线性二次高斯控制附加勘探的遗憾分析
通过数值模拟,我们分析了一种称为 LQG-NAIVE 的方法在控制未知部分可观察系统时产生的后悔效应,提出了扩展到 “闭环” 设置的 LQG-IF2E 方法,并验证了其与 LQG-NAIVE 的竞争性能。
- 高维线性多臂赌博机与背包问题
研究如何在高维度环境下应用稀疏估计和在线学习算法改进上下文强化学习中的多臂老虎机与背包问题,通过联合在线估计和原始 - 对偶框架,控制背包容量,从而取得了特征维度对数级依赖的次线性遗憾,同时在数据贫瘠和数据丰富情况下实现了最优遗憾结果。