- 上下文决斗赌徒的良好感知汤普森抽样
提出了适用于线性上下文对抗性对决带的一种名为 FGTS.CDB 的汤普森抽样算法,最小化遗憾,并在合成数据上证明比现有算法表现优秀。
- 原始 - 对偶优化中的需求平衡用于盲目网络收入管理
本文提出了一个实际高效的算法,具有最优理论遗憾度,可解决具有未知非参数需求的经典网络收益管理问题。通过引入一种称为需求平衡的技术贡献,该算法在每个时间段内将原始解与另一个价格配对,以抵消资源库存约束上互补松弛度的违反,从而进一步提高原先结果 - 无限时间平均回报马尔可夫决策过程的方差减少政策梯度方法
基于政策梯度的两种方法在无限时间平均奖励马尔可夫决策过程中引入了一般参数化。第一种方法采用隐式梯度传输进行方差降低,确保了预期后悔度为 $\tilde {\mathcal {O}}(T^{3/5})$ 数量级。第二种方法以 Hessian- - 网络学习和游戏中 LLM 代理的后悔案例研究
通过对大型语言模型代理在决策中的性能进行度量,我们提出通过性能指标 “遗憾” 在在线学习和博弈论的基准决策情景中研究它们的交互,以更好地了解这些交互环境中 LLM 代理的局限性。
- 一种广义 Borda 准则下最优和自适应的非平稳对决多臂老虎机算法
对比辩论问题中实现严重非稳态度的底线非希望恶化情况下,解决 Borda 动态后悔上界问题的技术,揭示了 Condorcet 与 Borda 后悔目标在对比辩论问题中学习到严重非稳态度的根本差异。
- 顺序任务设置中最小化局部遗憾的谬误
强化学习中,研究任务间具有变化时,通过最小化后悔累积可以实现更好的结果,即在每个任务中过度探索,尤其在任务之间出现重大变化时。
- 奖励驱动的非平稳随机赌博机的探索
为具有非平稳奖励分布的多臂赌博问题研究激励探索,其中玩家探索贪心选择以外的臂部时获得补偿,并可能对奖励提供偏差反馈。我们考虑两种不同的非平稳环境:突变和连续变化,并提出相应的激励探索算法。我们表明,所提出的算法在时间上实现了亚线性的遗憾和补 - 线性约束在线 LQG 问题的策略优化的遗憾分析
在线优化方法可用于研究在线线性二次型调节器问题,本研究通过在线乐观牛顿法提供了一个基于函数序列的在线控制器,并利用后悔度量定义了算法的性能界限。
- 用对抗专家实现稳健的决策聚合
我们研究了一个关于二元决策聚合问题,其中既有真实可信的专家,又有对抗性的专家;我们的目标是设计一个稳健的聚合器来预测真实世界的状态,同时最小化与基准决策之间的预期损失差距。我们证明了在一些条件下,截断均值是最优的聚合器选择,并且很多情况下最 - 单调个体公平性
在线学习与个体公平性问题的方法,考虑了能够聚合任意数量审核员反馈的审核方案,并提出了两个算法分别用于降低后悔度和公平违规数量,在计算效率方面也做出了显著改进。
- ICLR一种用于预测任务类别的表示学习游戏
提出了一种基于游戏的形式,用于学习降维表示特征向量,在只有未来预测任务的先验知识可用的情况下。最小化在表示中使用相同损失与使用原始特征的损失之间的预测损失,以展示先验知识的有效性。
- 线性约束在线凸优化的乐观安全性
在线凸优化(OCO)的未知约束设置是近年来备受关注的问题。本研究考虑了一种具有静态线性约束且玩家接收到噪声反馈并始终满足的问题版本。通过利用我们的乐观安全设计范例,我们提供了一种算法来解决该问题,其后悔值为 O (√T)。这比之前最佳后悔边 - 有限覆盖混合强化学习的在线算法的自然推广
混合强化学习利用在线和离线数据,研究其可证明的好处仍然很少,通过将状态 - 动作空间分区和在线算法温启动离线数据,我们证明了混合强化学习算法的遗憾可以通过最佳分区来表征,从而在探索方面取得可证明的增益。
- 最小化 Thompson 采样后悔率对标准差比率 (TS-RSR):一种可证明高效的批量贝叶斯优化算法
该论文提出了一种新的批处理贝叶斯优化方法,通过最小化概率预测均值或不确定性来协调每个批次中选择的动作,以减少冗余,并在非凸测试函数上表现出卓越的性能。
- 未知约束的在线学习
在线学习中最小化后悔,满足安全约束的广义元算法,估计未知的安全约束,并将在线学习预测转化为满足未知安全约束的预测,同时使用预测误差、各类模型的复杂度和新的复杂度度量来界定算法的后悔上限,同时提供了线性约束情况下的具体算法,使用比例变换平衡乐 - 奖励驱动的委托代理赌博游戏中的学习
这项研究考虑了一个反复的委托人 - 代理人强盗游戏,委托人仅能通过代理人与环境进行交互。委托人和代理人的目标不一致,选择行动的权限仅留给代理人。然而,委托人可以通过提供激励来影响代理人的决策,这些激励为代理人的回报增加。委托人旨在迭代学习一 - LC-Tsalis-INF: 广义的两全其美线性上下文决策者
本研究针对具有独立同分布 (i.i.d.) 上下文的线性情境赌博问题,提出一种基于 Follow-The-Regularized-Leader 和 Tsallis 熵的算法,被称为 α-Linear-Contextual (LC)-Tsal - 具有一般因果模型和干预的因果强盗
该论文研究因果强化学习问题,通过考虑因果干预顺序的最小累积遗憾度量来优化回报函数,提出了一种新的方法。
- 实例最优在线学习的 SMART 方法
我们提出了一种在线学习算法 —— 通过单调适应性遗憾追踪(SMART)进行切换,它适应数据并实现了在每个输入序列上相对于领导者跟随(FTL)策略的表现和任何其他输入策略的最坏情况保证同时有效的遗憾,通过我们的算法,我们证明 SMART 政策 - 用户有限注意力的利用:失配、学习和排序
使用用户的有限注意力解决推荐系统中的长期回报偏差问题,通过在线贪心算法和多项式时间算法降低后悔度和寻优问题。