基于演员 - 评论家的上下文交互式医疗干预个性化算法
通过修改演员 - 评论家算法并推导一种新的测试过程,提出了一种对评论家错误规范化具有鲁棒性的修改型演员评论家算法,在移动医疗等领域能够根据用户数据制定个性化健康干预措施,并能协调数据收集和影响 app 性能之间的平衡。
Aug, 2022
本文探讨了强化学习方法在学习选择干预策略中的应用,并研究了上下文推理误差和部分可观察行为状态对其有效性的影响。 结果表明,当上下文不确定性增加时,不确定性的传播至关重要,而策略梯度算法可以对部分可观察的行为状态信息提供显著的鲁棒性。
May, 2023
文章介绍了一种结合在线 Primal-dual 算法和上下文强化学习算法的优化和学习算法来解决数字健康领域中的个性化治疗问题,并证明该算法具有亚线性后悔界限。
May, 2023
本研究发展了一种强化学习算法,用于连续学习并改进快速干预应用程序中的治疗策略,并在 HeartSteps V2 中使用,以决定每天是否提供特定于上下文的活动建议。
Sep, 2019
本文提出了一种基于上下文的赌博算法来模拟个性化推荐新闻文章,该算法在学习过程中考虑到用户和文章的背景信息,并根据用户对文章的反馈调整文章选择策略以最大化总的用户点击率。实验结果表明,相较于标准的基于上下文的赌博算法,本方法提高了 12.5% 的点击率。
Feb, 2010
研究了在高度非静态环境中的情境赌博问题,提出了一种高效的自适应学习算法,并提供了理论上的遗憾分析来证明在时间长度 $T$ 的情况下,实现了遗憾的亚线性缩放。此外,将该算法扩展到混合收益的更一般情况下,并进行了实证实验,证明了该算法在两种设置下对基线算法的优势。
Feb, 2020
为延伸时间不变线性模型假设限制,我们提出了一种上下文 Bandits 的线性模型扩展,该模型具有基线奖励和处理效应两个部分,并已在移动健康研究中做了实验证明其有效性。
Nov, 2017
在线商业领域,推荐系统对增强用户体验至关重要。本篇研究论文探讨了基于上下文的强化学习模型 —— 上下文强化学习框架,作为实现个性化推荐的强大工具。我们深入研究了该领域中的挑战、先进算法与理论、协同策略,以及开放性问题和未来前景。与现有相关教程不同,(1)我们专注于上下文强化学习的探索视角,以减轻推荐系统中的 “马太效应”,即物品的热门度导致富者更富、贫者更贫;(2)除了传统的线性上下文强化学习,我们还将专注于神经上下文强化学习,近年来成为重要的分支,从经验和理论两方面探究神经网络如何增进上下文强化学习的个性化推荐;(3)我们将介绍最新的话题 —— 协同神经上下文强化学习,以结合用户异质性和用户相关性,为推荐系统定制;(4)我们将提供和讨论神经上下文强化学习在个性化推荐中的新兴挑战和未解问题,特别是对于大型神经模型。
Dec, 2023
研究通过机器学习开发了名为 Time2Stop 的智能、自适应且可解释的 JITAI 系统,该系统能够识别最佳干预时机并提供透明的 AI 解释,通过用户反馈建立人机循环,随着时间的推移适应干预模型。通过 8 周的实地实验发现,该自适应模型在干预准确度和接受性方面显著优于基线方法,并且加入解释进一步提高了干预的有效性。此外,Time2Stop 能够显著减少智能手机过度使用,将应用程序访问频率降低了 7.0%至 8.9%。通过主观数据也验证了这些定量指标,参与者更喜欢自适应干预,并对干预时间的准确性、有效性和信任程度评分较高。我们的工作可以激发未来在具备人机循环的 JITAI 系统方面的研究。
Mar, 2024