- 在线堆叠伯格优化与非线性控制
适应性代理、在线控制、后悔最小化、对抗性干扰、表现性预测是该研究论文的主要关键词,该论文提出了一个统一的算法框架,用于在预测和优化可能的代理响应空间中实现可计算的后悔最小化,同时说明了在各种情况下的的紧界限制以及应用实例。
- 对抗性多路决斗者
对抗性多对决赌博机中的后悔最小化问题进行了介绍,并引入了一种新算法 MiDEX(Multi Dueling EXP3)来学习来自成对子集选择模型的偏好反馈。证明了 MiDEX 相对于从 K 个臂中选择 Borda 赢家的累计 T 轮后悔的期 - 元强化学习中的测试时后悔最小化
元强化学习,遗憾最小化,马尔可夫决策过程,测试时间遗憾,快速速率
- 优化夏普比率:多臂赌博机中的风险调整决策
通过优化强化型夏普比率,我们提出了一种用于多臂赌博机的在线高斯过程算法,该算法克服了传统算法的缺陷,成功降低了风险投资组合管理问题的回报损失。
- 具有网络干扰的多臂赌博机
通过研究在线干预实验中的干扰问题,我们提出了基于线性回归算法的多臂赌博机策略,以最小化后悔并实现低后悔的任务分配。
- 通过鞍点优化实现遗憾最小化
通过最小化后悔的样本复杂性,本论文提出了一种基于决策 - 估计系数(DEC)的在线算法,用于优化结构化强化学习和有限模型类的探索 - 利用平衡问题。
- 停止依赖无选择,不要重复移动:商品组合优化的最优、高效和实用算法
我们设计了一种基于 Plackett Luce 的用户选择的快速算法,用于解决主动在线组合优化问题中的后悔最小化问题,并证明了该方法在实践中是有效的、最优的,并且没有现有方法的限制。
- 低秩赌博机的紧致二至无穷奇异子空间恢复
我们研究具有低秩结构的情境强化学习,提出了高效的算法用于策略评估、最佳策略识别和遗憾最小化,这些算法近乎极小化的性能表现可达到理论最优水平。
- ICLR超越最坏情况攻击:非劣政策下的自适应防御强化学习
基于强化学习在现实世界中的蓬勃发展,我们研究了在状态对抗攻击模型下的策略稳健性,并致力于在有限策略类中找到既稳健又高效的近最优解,通过迭代发现非支配策略形成一个最小的近最优解,从而确保在不同攻击场景下的适应性。
- 动态定价和长期参考效应的学习
在这篇研究论文中,我们研究了动态定价问题,其中客户对当前价格的反应受到客户的价格期望(参考价格)的影响。我们研究了一种简单而新颖的参考价格机制,其中参考价格是卖方过去所提供的价格的平均值。我们证明,在这种机制下,降价政策是近乎最优的,无论模 - 优化最小后悔度的无监督环境设计
无监督环境设计中,使用基于后悔最小化的最小极大后悔 (BLP) 目标进行训练,通过算法 ReMiDi 实现回报最小化,克服了智能体在极大后悔对手生成的环境配置中学习停滞的问题。
- 优化自适应实验:遗憾最小化和最佳臂识别的统一方法
本文提出了一个统一的模型,同时考虑了实验内表现和实验后结果,为大规模人群中的最佳表现提供了一个清晰的理论,并揭示了一些新的洞见。
- 上下文多臂赌博机的树集成
我们提出了一种基于树集成的上下文多臂赌博机的新框架,通过整合上界置信度和汤普森采样两种广泛使用的赌博机方法,用于标准和组合设置。通过几项实验研究,我们使用了流行的树集成方法 XGBoost 来证明我们的框架的有效性。与基于神经网络的最先进方 - 光滑 MDPs 中的无悔强化学习
为了解决在连续状态和 / 或动作空间中得到强化学习(RL)无后悔保证仍然是该领域的主要挑战之一,本论文引入了一种新的结构性假设,即 $
u-$ 平滑性,它概括了迄今已提出的大多数设置(如线性 MDPs 和 Lipschitz MDPs),我 - 决策导向的预测:悲观双层优化的计算研究
不确定性优化参数的处理是一个重要且长期存在的挑战,本研究致力于通过构建决策导向的预测模型来减少决策对不确定参数的敏感性,并将其建模为一种非凸二次优化问题以实现可行性。
- 有限资源下的偏好学习复杂性理解
奖励最大化问题中,我们考虑资源消耗的限制下的对决强盗设置。我们提出了基于 EXP3 的对决算法,并通过数值模拟证明了我们提出方法的有效性。
- 博弈中协作学习的最优遗憾界
我们研究了在一个通用的协作多智能体多臂老虎机模型中的遗憾最小化问题,在该模型中,每个智能体面临一个有限的臂集,并可以通过一个中央控制器与其他智能体进行通信。该模型中每个智能体的最优臂是具有最大期望混合奖励的臂,其中每个臂的混合奖励是其在所有 - 通过遗憾最小化进行 AI 安全的辩论
考虑使用辩论作为 AI 安全问题的重复博弈,研究在该情境下当玩家是 AI 或人类,且拥有超级 AI 计算能力时的高效后悔最小化问题,进一步阐述了达到相关均衡的策略序列的条件。
- 无模型的后验采样通过学习率随机化
介绍了一种名为随机化 Q 学习(RandQL)的新型基于后验抽样的模型无关算法,用于减小判断失误在分节马尔可夫决策过程(MDPs)中的影响,分析了它在标表和非标表度量空间设置下的性能,表明其乐观探索方法优于现有的方法。
- 具有对抗性干扰的线性时不变系统分布式在线控制的遗憾分析
本研究解决了分布式在线控制问题,考虑了存在对抗干扰的线性时不变系统网络。针对已知动态和未知动态两种情况,分别提出了全分布式干扰反馈控制器和探索 - 执行方法,并给出了相应的遗憾界。