Feb, 2024

reBandit:基于随机效应的在线强化学习算法用于减少大麻使用

TL;DR使用名为 reBandit 的在线增强学习算法,以在移动健康研究中提供个性化的移动健康干预措施,旨在减少 18-25 岁的青年对大麻的使用。reBandit 在噪声较大的移动健康环境中利用随机效应和信息贝叶斯先验快速高效地进行学习,同时通过经验贝叶斯和优化技术在线自动更新超参数,证明其适应不同人群的能力优于其他算法。