- 在平均回报 MDPs 中实现可行的最小最优后悔
这篇论文介绍了一种具有最小最大后悔度的可行算法,该算法通过使用一种新颖的子程序,即 Projected Mitigated Extended Value Iteration(PMEVI),来高效地计算偏差受限最优策略。同时,该算法不需要先前 - ICML动态环境下的在线线性回归与折扣
我们开发了一种用于在线线性回归的算法,即使在完全没有先验知识的情况下,也能实现最佳的静态和动态遗憾保证。
- 一种具有对数复杂度和遗憾保证的在线基于梯度的缓存策略
我们引入了一种基于梯度的在线缓存策略,相对于目录大小具有对数计算复杂度,同时提供遗憾保证,能够在实时决策和最佳后见选择之间最小化性能差距。
- 线性马尔可夫决策过程中的常数遗憾解决
我们研究了强化学习中的恒定遗憾保证问题,提出了一种算法 Cert-LSVI-UCB,用于在线性马尔科夫决策过程中近似转移核和奖励函数,利用认证估计器进行集中分析,证明了其对于无限次运行具有恒定的遗憾边界,不依赖先验分布假设。
- 随机偏袒监控的随机置信界限
偏导监控(PM)框架为具有不完整反馈的顺序学习问题提供了一个理论表述。本文在上下文 PM 的情况下,考虑了随机结果的情况,并介绍了一种基于确定性置信区间的随机化策略,扩展了悔恨保证适用范围,该策略在 PM 游戏中改进了现有基线结果。为了鼓励 - 贝叶斯优化中的随机探索:最优遗憾和计算效率
使用高斯过程模型进行贝叶斯优化,以及基于核的奖励优化方法的研究,其中采用从分布中抽取的随机样本进行域的探索。通过该随机探索方法,我们证明其可以实现最优的误差率,并且我们的方法在无噪声和有噪声环境下均具有理想的后悔保证,同时避免了昂贵的无凸优 - 无限视角平均报酬强化学习的量子加速
该研究探讨了量子加速在解决无限视界马尔可夫决策过程(MDP)以增强平均奖励结果方面的潜力。我们引入了一种创新的量子框架,用于代理与未知 MDP 的交互,扩展传统的交互范式。我们的方法包括设计一种基于乐观主义的表格型强化学习算法,通过高效的量 - 有限探索的双层离线策略优化
我们研究线下强化学习,旨在根据固定、预先收集的数据集学习出良好的策略。我们提出了一种双层结构的策略优化算法,通过模拟策略(上层)和值函数(下层)之间的层次交互来解决此任务中的分布偏移问题,尤其是在函数逼近的情况下。
- Oracle 群体损失的高效算法
我们研究了在线预测问题,通过简单修改睡眠专家技术,给出了多项群组的遗憾保证,与先前的工作相比具有类似的遗憾保证,并且在群组数目为多项式有界且外部遗憾问题可有效求解时具备高效性。着重考虑了在线线性回归和在线组合优化问题,并在合成数据和两个真实 - 对抗语境强化学习的核化方法
通过将属于再现核希尔伯特空间的损失函数纳入到对手性线性背景乐队的在线学习问题的研究中,我们提出了一种计算有效的算法,该算法利用一种新的对损失函数进行乐观偏差估计的方法,在对底层内核进行的各种特征值衰减假设下实现接近最佳的后悔保证。
- 脱机强化学习的悲观非线性最小二乘值迭代
提出了一种用于非线性函数逼近的离线强化学习方法 —— 悲观非线性最小二乘值迭代 (PNLSVI),它包括方差加权回归、方差估计子程序和基于悲观值迭代的规划阶段。该方法的遗憾界与函数类的复杂性紧密相关,并在针对线性函数逼近的情况下实现极小化的 - 面向未来的原因,立即行动:可证明样本效率的自主 LLM 代理的原则框架
认知大型语言模型(LLM)中,设计了一个名为 “为未来推理,为现在采取行动” 的框架(RAFA),通过在 LLMs 中结合学习和规划的过程,可以在最小交互次数内极大地提高推理能力,并在多个基准测试中得到了近乎完美的分数。
- 利用鞍点边界来改进随机线性赌臂算法的新算法
我们提出了一种改进的算法,可保证在最坏情况下减少后悔,以解决随机线性强盗问题。
- 具有噪声请求估计的无悔缓存
提出了一种名为 Noisy-Follow-the-Perturbed-Leader(NFPL)算法的在线学习算法来设计具有遗憾保证的缓存策略,在请求估计有噪声的情况下,该算法具有亚线性遗憾,并通过实验验证了该方法的有效性。
- 安全线性赌臂机中的问题几何利用
通过利用特定问题设置的几何性质,我们为分离良好的问题实例和有限星凸集的行动集提供了改进的遗憾保证。此外,我们提出了一种新的算法,该算法在选择问题参数时自适应,并且至少与现有算法具有相同的遗憾保证。最后,我们引入了安全线性贝叶斯设定的一个概括 - ICML带对数通信的 Langevin Thompson Sampling:赌博机和强化学习
本文提出了一种称为批量 Langevin Thompson Sampling 算法的方法,用于学习未知奖励分布和转移动力学,在批处理模式下,算法仅需要对数通信成本。 通过在随机多臂老虎机和无限时间域强化学习中应用此算法,保持与标准汤普森采样 - Riemannian 无投影在线学习
本文介绍了在曲面上进行在线几何凸优化时如何通过投影自由算法,在有分离预言机或线性优化预言机的情况下实现亚线性后悔保证。
- 带有流行度偏差的排名:自我放大动态下的用户福利
本研究提出了一个推荐机制,研究了不同算法对用户福利的影响,发现流行度偏见、项目质量和位置偏见可以影响用户选择,通过模拟研究,证明了该算法在可变环境下的有效性及其能够保证高效的后悔性保证。
- 层次划分预测器
本文提出了一种新的序列预测算法,称为 HPFs,其中采用了分层划分特征空间、学习专门的预测器以及本地在线学习等三个原则,该算法可以在拥有强大模型类的同时提供理论上的遗憾保证和与深度神经网络相当的实证性能。
- 利用赌率反馈的表现预测:通过重新参数化进行学习
本研究旨在研究不需要假设空间为凸集且模型对数据分布的映射事先已知的可应用的可执行预测问题。通过开发两级零阶优化算法,该算法一级旨在计算分布图,而另一个级别则将可执行预测目标重新参数化为由所引发的数据分布的函数。在一定的条件下,这种重新参数化