将难度排名与多臂赌博机相结合,对教育内容进行排序
本文介绍了一种智能辅导系统的方法,该系统根据学生特定的时间和动机资源,自适应地个性化地最大化学习活动序列,以提高学生的技能,利用了内在动机学习的最新模型,并运用多臂老虎机技术进行优化,同时基于专家知识来加速探索初始启动
Oct, 2013
本研究提出了一种基于元学习方法的新的解决方案,可以在一个特定的 E/E 问题类别上利用先前的知识,从而找到一个平均表现最佳的候选 E/E 策略。此方法在两种不同的假设空间中都取得较好的实验结果和鲁棒性评估。
Jul, 2012
本研究调查了基于偏好的多臂赌博机和决斗赌博机的最新研究现状及其解决方法,关注于在序贯决策过程中进行的数据反馈和学习,并且考虑了强度信息不可用的情况。
Jul, 2018
开发个性化和适应性教育工具的过程中,探索如何以高效方式跨多样但相关内容实现知识掌握成为关键。本论文引入了名为 EdNetRMABs 的 Education Network Restless Multi-armed Bandits,利用网络表示学习内容间的相互关系,并通过 EduQate 方法,使用具有相互依赖性的 Q 学习在每个时间步骤中做出明智的选择,并通过与基准策略对比使用合成和真实数据建模的学生来证明其有效性。
Jun, 2024
本文介绍了一种基于多臂老虎机算法和位置点击模型的方法,用于解决线上系统中推荐排名的偏见问题,并在合成和实际数据集的离线和在线 A/B 测试中证明了该算法的有效性。
Apr, 2020
通过建立离散选择模型与在线学习和多臂赌博算法领域之间的联系,本文的两个主要贡献是提供了一类算法的次线性遗憾界,包括 Exp3 算法作为特例,并引入了一类新的对抗多臂赌博算法,借鉴了 Wen (2001) 首次提出的广义嵌套逻辑模型,这些算法能够通过封闭形式的采样分布概率实现高度的模型调优灵活性。为了演示我们算法的实际实施,我们进行了数值实验,重点关注随机赌博的情况。
Oct, 2023
通过模拟实验,我们发现教育科技中的自适应个性化可能是一把双刃剑,实时个性化在某些情况下改善学生体验,但较慢的个性化和潜在的歧视结果意味着更个性化的模型并不总是有益的。
Sep, 2023
提出了一种基于非静态多臂赌博机的折扣汤普森采样的多模态多任务对话行为分类任务的任务选择和分配方法,结果表明,该方法在不同的训练阶段可以有效地识别任务效用,并在训练过程中主动避免无用或有害的任务,相比单任务和多任务基线模型在 UAR 和 F1 方面显著优越,P 值小于 0.05,此外,对实验进一步分析表明,对于数据不平衡问题的数据集,该方法具有显著更高的稳定性,并且能够获得一致且良好的少数类性能,相较于当前最先进的模型,该方法更为优越。
Sep, 2023
本文基于组合多臂赌博机,考虑了测试成本,提供了一种新的成本高效的在线决策框架,并通过后验抽样或 BayesUCB 进行探索。我们对该框架进行了严格的理论分析,并提供了多个实验结果,证明了它在实际问题中的适用性。
Aug, 2023