- BEACON:长期群体推荐和多模态食谱的便利性和营养平衡
本研究通过数据驱动的方法解决了在饮食选择中营养和便利之间的权衡问题,并提出了一种基于上下文强化学习的方法来推荐合适的餐食。
- 发现最小的强化学习环境
通过元学习神经网络马尔可夫决策过程,我们发现专门的训练环境对于训练强化学习智能体具有潜在的速度提升能力,并且发现上下文为基的赌博机能够实现良好的评估环境转移,从而加速下游应用。
- 通过策略差异估计在表格强化学习中减少样本复杂度
本文研究了上下文赌博机和表格强化学习中纯探索问题的非渐进样本复杂度,通过识别高概率下一组策略的 ε 最优策略。我们发现在上下文赌博机中估计策略行为的差异可以识别出最佳策略,但是在表格强化学习中不成立,这表明上下文赌博机和强化学习之间存在差异 - 在线平台中自适应学习选择 - 排序
优化用户排序列表的算法将用户偏好和物品位置的变化考虑在内,通过上界调整预测的用户满意度分数,并选择最大化这些调整分数的排序操作,以在异质用户中个性化用户体验。该算法在实验中表现优于基线模型。
- 基于分层探索 - 利用权衡的离线 Oracle 高效学习上下文 MDP
本文提出了一种从上下文马尔科夫决策过程到离线密度估计的高效、近似最优的转化算法,同时解决了无结构假设的模型类 CMDPs。
- 线性赌臂机的基于索引最小经验分歧的算法
该论文介绍了一种名为 LinIMED 算法的 IMED 算法的线性版本,证明其在上下文情境与线性收益的情况下具有 $\widetilde {O}(d\sqrt {T})$ 的最优上限遗憾,并通过大量实证研究证明 LinIMED 和其变种在某 - 关于大型语言模型的决策重要性中的不确定性
我们研究了在自然语言作为输入的决策问题中不确定性的作用,发现在大型语言模型中忽视了不确定性对于带有大型语言模型的赌博任务具有基础性的作用。
- 低秩赌博机的紧致二至无穷奇异子空间恢复
我们研究具有低秩结构的情境强化学习,提出了高效的算法用于策略评估、最佳策略识别和遗憾最小化,这些算法近乎极小化的性能表现可达到理论最优水平。
- 乐观信息导向抽样
我们提出了一种新的分析框架,将俄罗斯和范・罗伊(2018 年)的信息导向抽样的贝叶斯理论与 Foster 等人(2021 年)的最坏情况理论基于决策估计系数相结合,通过我们的算法模板 Optimistic Information-Direc - 部分可观察情境下的汤普森抽样
基于观测数据的贝叶斯泰普森抽样策略成功地平衡了探索和利用,通过引入新的鞅技术和浓厚不等式解决了部分观测相关随机变量的问题,为研究其他具有上下文信息和部分观测的决策问题铺平了道路。
- 扩散模型应用于大动作空间的情境强化学习
传播模型中的扩散汤普森抽样能够通过利用预训练的扩散模型中的相关性来提高在上下文强化学习中的效率,理论和算法基础的发展以及经验证明其良好的性能。
- 具有图反馈的随机上下文臂机:从独立数到 MAS 数
我们研究了具有图反馈的背景下的情景赌博问题,发现了相关概念与学习限制的关系,并提供了优化算法,以及表明针对情景赌博问题的统计复杂性在许多情况下可以由最大无环子图数完全刻画。
- 具有一般价值函数的上下文多项式罗吉特赌博机
本研究考虑了具有广义价值函数类的上下文多项式逻辑带有多臂赌博机,并在线性情况下提出了一套算法,其表现优于现有方法,具有计算效率高、无维度遗憾界限和处理敌对环境和奖励的能力等优势。
- 分布受益的更多好处:强化学习的二阶边界
在这篇论文中,我们证明了 Distributional Reinforcement Learning (DistRL) 可以在具有函数逼近的一般环境中获得在线和离线强化学习的二阶上界。这些二阶上界是与回报方差相关的实例相关性上界,我们证明这 - 上下文强化学习中基于一般协变量转移的分布稳健策略评估
我们介绍了一种分布健壮的方法,用于在背景变量移位下增强上下文赌博的离线策略评估的可靠性。通过应用分布健壮回归技术改进条件奖励分布的估计,我们开发出一套综合的策略价值评估器,并通过理论分析证明了该方法相对于传统方法在偏移较大时的有限样本上限优 - 量子自然策略梯度
探讨了量子菲舍尔信息矩阵在增强参数化量子电路 (PQC) 强化学习代理性能方面的作用;通过对量子和经典菲舍尔信息矩阵之间的 Löwner 不等式进行详细分析,揭示了使用每种类型的信息矩阵的微妙差别和影响。结果表明,使用量子菲舍尔信息矩阵的 - 带阶段约束的情境强化学习
我们在上下文感知强化学习中研究了阶段限制的情况,并提出了一种上界置信区间算法来平衡探索和约束满足,同时证明了其遗憾界。
- 线性上下文强化学习的最佳算法
我们研究了针对 K 臂线性情境赌博机的最佳算法,无需先前对环境有所了解,在敌对和随机的情境下都能够提供接近最优的后悔边界。
- WWW个性化推荐的神经上下文强化学习
在线商业领域,推荐系统对增强用户体验至关重要。本篇研究论文探讨了基于上下文的强化学习模型 —— 上下文强化学习框架,作为实现个性化推荐的强大工具。我们深入研究了该领域中的挑战、先进算法与理论、协同策略,以及开放性问题和未来前景。与现有相关教 - 在线神经回归的上下文强化学习
使用神经网络在在线回归任务和相关神经上下文盲目策略中展示了新的调整方法以减小后悔并通过实验证明其性能优于现有算法。