基于演员 - 评论家的上下文交互式医疗干预个性化算法

Jun, 2017

基于演员 - 评论家的上下文交互式医疗干预个性化算法

An Actor-Critic Contextual Bandit Algorithm for Personalized Mobile Health Interventions

Huitian Lei, Yangyi Lu, Ambuj Tewari, Susan A. Murphy

TL;DR通过构建即时自适应干预研究中的任务来填补现有的方法论空白，提供了一个在线演员 - 评论算法的框架来构建和完善基于数据的即时自适应干预，以此解决移动健康领域的可解释性问题。

Abstract

Increasing technological sophistication and widespread use of smartphones and wearable devices provide opportunities for innovative and highly personalized health interventions. A just-in-time adaptive intervention (JITAI) uses →

just-in-time adaptive intervention real-time data collection contextual bandit problem online actor-critic algorithm mobile health

发现论文，激发创造

在线决策的强鲁棒性测试

通过修改演员 - 评论家算法并推导一种新的测试过程，提出了一种对评论家错误规范化具有鲁棒性的修改型演员评论家算法，在移动医疗等领域能够根据用户数据制定个性化健康干预措施，并能协调数据收集和影响 app 性能之间的平衡。

Aug, 2022

评估环境推断误差和局部可观测性对于即时自适应干预的强化学习方法的影响

本文探讨了强化学习方法在学习选择干预策略中的应用，并研究了上下文推理误差和部分可观察行为状态对其有效性的影响。结果表明，当上下文不确定性增加时，不确定性的传播至关重要，而策略梯度算法可以对部分可观察的行为状态信息提供显著的鲁棒性。

May, 2023

具有预算信息限制的情境臂控制

文章介绍了一种结合在线 Primal-dual 算法和上下文强化学习算法的优化和学习算法来解决数字健康领域中的个性化治疗问题，并证明该算法具有亚线性后悔界限。

May, 2023

个性化 HeartSteps: 一种强化学习算法，用于优化身体活动

本研究发展了一种强化学习算法，用于连续学习并改进快速干预应用程序中的治疗策略，并在 HeartSteps V2 中使用，以决定每天是否提供特定于上下文的活动建议。

Sep, 2019

基于上下文的赌博机算法用于个性化新闻推荐

本文提出了一种基于上下文的赌博算法来模拟个性化推荐新闻文章，该算法在学习过程中考虑到用户和文章的背景信息，并根据用户对文章的反馈调整文章选择策略以最大化总的用户点击率。实验结果表明，相较于标准的基于上下文的赌博算法，本方法提高了 12.5% 的点击率。

Feb, 2010

基于上下文多臂赌博机的时变用户兴趣个性化推荐

研究了在高度非静态环境中的情境赌博问题，提出了一种高效的自适应学习算法，并提供了理论上的遗憾分析来证明在时间长度 $T$ 的情况下，实现了遗憾的亚线性缩放。此外，将该算法扩展到混合收益的更一般情况下，并进行了实证实验，证明了该算法在两种设置下对基线算法的优势。

Feb, 2020

基于行动中心的上下文分组赌博机算法

为延伸时间不变线性模型假设限制，我们提出了一种上下文 Bandits 的线性模型扩展，该模型具有基线奖励和处理效应两个部分，并已在移动健康研究中做了实验证明其有效性。

Nov, 2017

风险感知的神经上下文点臂连续控制

我们提出了一个风险感知的决策框架，用于处理上下文褒贬问题，并满足实际环境中的约束条件，通过采用一个多批评者的角色体系来平衡约束满足度和性能。

Dec, 2023

个性化推荐的神经上下文强化学习

在线商业领域，推荐系统对增强用户体验至关重要。本篇研究论文探讨了基于上下文的强化学习模型 —— 上下文强化学习框架，作为实现个性化推荐的强大工具。我们深入研究了该领域中的挑战、先进算法与理论、协同策略，以及开放性问题和未来前景。与现有相关教程不同，（1）我们专注于上下文强化学习的探索视角，以减轻推荐系统中的 “马太效应”，即物品的热门度导致富者更富、贫者更贫；（2）除了传统的线性上下文强化学习，我们还将专注于神经上下文强化学习，近年来成为重要的分支，从经验和理论两方面探究神经网络如何增进上下文强化学习的个性化推荐；（3）我们将介绍最新的话题 —— 协同神经上下文强化学习，以结合用户异质性和用户相关性，为推荐系统定制；（4）我们将提供和讨论神经上下文强化学习在个性化推荐中的新兴挑战和未解问题，特别是对于大型神经模型。

Dec, 2023

Time2Stop：应对智能手机过度使用的自适应和可解释人机环形干预

研究通过机器学习开发了名为 Time2Stop 的智能、自适应且可解释的 JITAI 系统，该系统能够识别最佳干预时机并提供透明的 AI 解释，通过用户反馈建立人机循环，随着时间的推移适应干预模型。通过 8 周的实地实验发现，该自适应模型在干预准确度和接受性方面显著优于基线方法，并且加入解释进一步提高了干预的有效性。此外，Time2Stop 能够显著减少智能手机过度使用，将应用程序访问频率降低了 7.0％至 8.9％。通过主观数据也验证了这些定量指标，参与者更喜欢自适应干预，并对干预时间的准确性、有效性和信任程度评分较高。我们的工作可以激发未来在具备人机循环的 JITAI 系统方面的研究。

Mar, 2024