将难度排名与多臂赌博机相结合，对教育内容进行排序

Apr, 2018

将难度排名与多臂赌博机相结合，对教育内容进行排序

Combining Difficulty Ranking with Multi-Armed Bandits to Sequence Educational Content

Avi Segal, Yossi Ben David, Joseph Jay Williams, Kobi Gal, Yaar Shalom

TL;DR本文介绍了一种名为 MAPLE（基于多臂赌博机的学习环境个性化）的计算方法，通过结合难度排序和多臂赌博机，解决了如何个性化教育内容以最大化其学习收益的问题，并展示了该方法的有效性。

Abstract

As e-learning systems become more prevalent, there is a growing need for them to accommodate individual differences between students. This paper addresses the problem of how to personalize educational content to students in order to maximize their →

e-learning systems personalization learning gains difficulty ranking maple

发现论文，激发创造

智能教学系统的多臂赌博机

本文介绍了一种智能辅导系统的方法，该系统根据学生特定的时间和动机资源，自适应地个性化地最大化学习活动序列，以提高学生的技能，利用了内在动机学习的最新模型，并运用多臂老虎机技术进行优化，同时基于专家知识来加速探索初始启动

Oct, 2013

探索 / 开发策略的元学习：多臂赌博机案例

本研究提出了一种基于元学习方法的新的解决方案，可以在一个特定的 E/E 问题类别上利用先前的知识，从而找到一个平均表现最佳的候选 E/E 策略。此方法在两种不同的假设空间中都取得较好的实验结果和鲁棒性评估。

Jul, 2012

基于偏好的 Dueling Bandits 在线学习：综述

本研究调查了基于偏好的多臂赌博机和决斗赌博机的最新研究现状及其解决方法，关注于在序贯决策过程中进行的数据反馈和学习，并且考虑了强度信息不可用的情况。

Jul, 2018

EduQate: 在教育场景中通过 RMABs 生成自适应课程

开发个性化和适应性教育工具的过程中，探索如何以高效方式跨多样但相关内容实现知识掌握成为关键。本论文引入了名为 EdNetRMABs 的 Education Network Restless Multi-armed Bandits，利用网络表示学习内容间的相互关系，并通过 EduQate 方法，使用具有相互依赖性的 Q 学习在每个时间步骤中做出明智的选择，并通过与基准策略对比使用合成和真实数据建模的学生来证明其有效性。

Jun, 2024

教育中的强化学习：多臂赌博机方法

本研究通过上下文化和模拟累计奖励来解决教育上的干预建议问题，采用强化学习的代理模型结合混合学习方法，景点在线平台的自动化功能

Nov, 2022

基于位置模型的多臂赌博反馈排序学习

本文介绍了一种基于多臂老虎机算法和位置点击模型的方法，用于解决线上系统中推荐排名的偏见问题，并在合成和实际数据集的离线和在线 A/B 测试中证明了该算法的有效性。

Apr, 2020

离散选择多臂赌博机

通过建立离散选择模型与在线学习和多臂赌博算法领域之间的联系，本文的两个主要贡献是提供了一类算法的次线性遗憾界，包括 Exp3 算法作为特例，并引入了一类新的对抗多臂赌博算法，借鉴了 Wen (2001) 首次提出的广义嵌套逻辑模型，这些算法能够通过封闭形式的采样分布概率实现高度的模型调优灵活性。为了演示我们算法的实际实施，我们进行了数值实验，重点关注随机赌博的情况。

Oct, 2023

网上自适应算法中特征选择的重要性

通过模拟实验，我们发现教育科技中的自适应个性化可能是一把双刃剑，实时个性化在某些情况下改善学生体验，但较慢的个性化和潜在的歧视结果意味着更个性化的模型并不总是有益的。

Sep, 2023

多模多任务对话行为分类的任务选择和分配及非平稳多臂赌博机方法

提出了一种基于非静态多臂赌博机的折扣汤普森采样的多模态多任务对话行为分类任务的任务选择和分配方法，结果表明，该方法在不同的训练阶段可以有效地识别任务效用，并在训练过程中主动避免无用或有害的任务，相比单任务和多任务基线模型在 UAR 和 F1 方面显著优越，P 值小于 0.05，此外，对实验进一步分析表明，对于数据不平衡问题的数据集，该方法具有显著更高的稳定性，并且能够获得一致且良好的少数类性能，相较于当前最先进的模型，该方法更为优越。

Sep, 2023

低成本在线决策：一种组合多臂赌博机方法

本文基于组合多臂赌博机，考虑了测试成本，提供了一种新的成本高效的在线决策框架，并通过后验抽样或 BayesUCB 进行探索。我们对该框架进行了严格的理论分析，并提供了多个实验结果，证明了它在实际问题中的适用性。

Aug, 2023