reBandit：基于随机效应的在线强化学习算法用于减少大麻使用

Feb, 2024

reBandit：基于随机效应的在线强化学习算法用于减少大麻使用

reBandit: Random Effects based Online RL algorithm for Reducing Cannabis Use

Susobhan Ghosh, Yongyi Guo, Pei-Yao Hung, Lara Coughlin, Erin Bonar...

TL;DR使用名为 reBandit 的在线增强学习算法，以在移动健康研究中提供个性化的移动健康干预措施，旨在减少 18-25 岁的青年对大麻的使用。reBandit 在噪声较大的移动健康环境中利用随机效应和信息贝叶斯先验快速高效地进行学习，同时通过经验贝叶斯和优化技术在线自动更新超参数，证明其适应不同人群的能力优于其他算法。

Abstract

The escalating prevalence of cannabis use, and associated cannabis-use disorder (CUD), poses a significant public health challenge globally. With a notably wide treatment gap, especially among emerging adults (EA

cannabis use cannabis-use disorder mobile health interventions reinforcement learning emerging adults

发现论文，激发创造

基于贝叶斯方法的在线学习对于上下文不安定赌博算法的应用于公共卫生

基于贝叶斯学习和汤普森抽样的上下文多臂赌博机在线强化学习方法可以高效建模复杂的上下文相关和非固定的公共卫生干预项目中的资源分配，具有较高的性能表现。

Feb, 2024

无眠多臂赌博中的零样本学习

提出了一种基于神经网络的预训练模型（PreFeRMAB），具备广泛的零样本能力，能够更加高效地在特定实例上进行微调，同时适用于离散或连续状态空间的多动作问题，解决了以往研究中在处理连续状态时需要重新训练等限制，拥有理论收敛保证和在多个具有挑战性、以真实世界为灵感的问题上的实证优势。

Oct, 2023

EduQate: 在教育场景中通过 RMABs 生成自适应课程

开发个性化和适应性教育工具的过程中，探索如何以高效方式跨多样但相关内容实现知识掌握成为关键。本论文引入了名为 EdNetRMABs 的 Education Network Restless Multi-armed Bandits，利用网络表示学习内容间的相互关系，并通过 EduQate 方法，使用具有相互依赖性的 Q 学习在每个时间步骤中做出明智的选择，并通过与基准策略对比使用合成和真实数据建模的学生来证明其有效性。

Jun, 2024

可证明高效的对抗性不安静多臂赌博机强化学习：未知转换和赌博机反馈

通过使用一种创新的偏置对抗性奖励估计器和低复杂度指标策略，我们开发了一种新颖的强化学习算法来解决具有未知转换函数和敌对奖励的周期性不安定性多臂赌博机问题，以最大化总的敌对奖励，并确保在每个决策阶段满足瞬时激活约束条件，我们的算法在我们所考虑的具有挑战性的设置中保证了约根号 T 的遗憾界，这在我们的所知范围内是首次实现的。

May, 2024

多臂赌博机策略对深度循环强化学习的影响

使用深度递归 Q - 网络和多臂赌博策略，研究自主驾驶情景中平衡探索和利用的方法，以及部分可观测系统中预测方向盘的影响。

Oct, 2023

深度贝叶斯多臂赌博机：在线个性化推荐中的探索

本文提出了一种使用深度贝叶斯 Bandits 算法的广告推荐系统，其包含探索技术和上下文的特征，以解决推荐系统中的反馈循环问题和算法偏差。

Aug, 2020

在线匹配：一种用于大规模推荐的实时试错系统

通过在线学习的方法，本研究提出了一种用于大规模推荐系统的可扩展闭环赌博系统，以提高新内容发现和物品探索的能力。

Jul, 2023

使用贝叶斯方法学习马尔可夫决策过程中的 Bandit 结构

研究了强化学习中决策问题的环境类型不确定性问题，提出了一种基于贝叶斯假设检验方法的在线算法，可以在上下文探索和马尔科夫过程决策算法之间互相转换来适应环境类型，以避免不合适的环境假设引起的低效问题。

Jul, 2022

具上下文的无休止多臂赌博机在需求响应决策中的应用

介绍了一种新的多臂赌博机框架 —— 上下文不安定赌博机（CRB），用于复杂的在线决策。该 CRB 框架结合了上下文赌博机和不安定赌博机的核心特征，可以模拟每个臂的内部状态转换以及外部全局环境上下文的影响。使用双重分解方法，我们开发了一个可扩展的指标策略算法来解决 CRB 问题，并对该算法的渐近最优性进行了理论分析。在臂模型未知的情况下，我们进一步提出了一种基于指标策略的基于模型的在线学习算法，同时学习臂模型和做出决策。此外，我们将所提出的 CRB 框架和指标策略算法专门应用于智能电网中的需求响应决策问题。数值模拟实验证明了我们所提出的 CRB 方法的性能和效率。

Mar, 2024

REBEL: 强化学习人类反馈中的回报过度优化问题的基于正则化的解决方案

通过使用 REBEL 算法，我们提出了一种基于人类反馈的样本高效奖励正则化的机器人强化学习方法，并通过实验证明，REBEL 方法在样本效率方面比 PEBBLE 和 PEBBLE+SURF 等现有方法取得了 70% 的提升。

Dec, 2023