利用适应性课程和情境赌博机提高学生完成率

Jul, 2022

利用适应性课程和情境赌博机提高学生完成率

Raising Student Completion Rates with Adaptive Curriculum and Contextual Bandits

Robert Belfer, Ekaterina Kochmar, Iulian Vlad Serban

TL;DR使用模型为基础的增强学习，将上下文乐队用作指派学习活动的方法，提高了学生的完成率和参与度，增强了个性化学习体验。

Abstract

We present an adaptive learning intelligent tutoring system, which uses model-based reinforcement learning in the form of →

intelligent tutoring system model-based reinforcement learning contextual bandits adaptive learning personalization

发现论文，激发创造

智能教学系统的多臂赌博机

本文介绍了一种智能辅导系统的方法，该系统根据学生特定的时间和动机资源，自适应地个性化地最大化学习活动序列，以提高学生的技能，利用了内在动机学习的最新模型，并运用多臂老虎机技术进行优化，同时基于专家知识来加速探索初始启动

Oct, 2013

教育中的强化学习：多臂赌博机方法

本研究通过上下文化和模拟累计奖励来解决教育上的干预建议问题，采用强化学习的代理模型结合混合学习方法，景点在线平台的自动化功能

Nov, 2022

个性化推荐的神经上下文强化学习

在线商业领域，推荐系统对增强用户体验至关重要。本篇研究论文探讨了基于上下文的强化学习模型 —— 上下文强化学习框架，作为实现个性化推荐的强大工具。我们深入研究了该领域中的挑战、先进算法与理论、协同策略，以及开放性问题和未来前景。与现有相关教程不同，（1）我们专注于上下文强化学习的探索视角，以减轻推荐系统中的 “马太效应”，即物品的热门度导致富者更富、贫者更贫；（2）除了传统的线性上下文强化学习，我们还将专注于神经上下文强化学习，近年来成为重要的分支，从经验和理论两方面探究神经网络如何增进上下文强化学习的个性化推荐；（3）我们将介绍最新的话题 —— 协同神经上下文强化学习，以结合用户异质性和用户相关性，为推荐系统定制；（4）我们将提供和讨论神经上下文强化学习在个性化推荐中的新兴挑战和未解问题，特别是对于大型神经模型。

Dec, 2023

多任务学习用于情境赌博机

本文提出了一个基于上限置信区间的多任务学习算法框架，用于处理具有高任务相似性的上下文型臂带问题，并揭示了此算法在数据中高任务相似性的优势。

May, 2017

RLTutor: 基于强化学习的自适应教学系统，通过模拟虚拟学生减少交互次数

该研究提出了通过构建学生的虚拟模型来实现教学策略优化的框架，并在实验中使用该数学模型进行了教学，结果表明其性能与传统教学方法相当。该框架可作为理论教学优化和电子学习系统实际应用之间的缓冲。

Jul, 2021

基于合作上下文臂银行算法的分布式在线学习

本文提出了一种新的分布式在线学习框架，将学习者建模为合作的情境赌博机，分析了分布式在线学习算法和完全知识基准的效率，研究表明后者在时间上失误是亚线性的，该理论框架可用于许多实际应用中，包括大数据挖掘、监视传感器网络事件检测和分布式在线推荐系统。

Aug, 2013

客服机器人中的上下文赌博学习经验

本文讨论了利用上下文决策来改善微软虚拟客服所取得的成就，其中集中讨论了强化学习在自然语言处理和信息检索等领域的应用，同时也提供了解决这些挑战的实用方法。

May, 2019

客户支持机器人中的上下文强化学习应用

本文讨论了使用上下文赌博机（CB）的微软虚拟代理的实现情况，包括基于神经 - 线性赌博机（NLB）的意图消岐和基于一组多臂赌博机（MAB）的上下文推荐。我们的解决方案已经落地生产并通过 A/B 测试证实了业务指标的改进，包括问题解决率相对增加了 12％以上，转移到人工操作员的相对减少了 4％以上。

Dec, 2021

基于 LLMs 增强的上下文强化学习

通过将大型语言模型与情境赌博算法框架相融合，加强了对于情境的表示，提供更密集且更丰富的视角，初步结果表明这种方法的潜力，与传统赌博算法相比，在累积奖励上有显著改善，且减少了后悔。这种整合不仅展示了大型语言模型在强化学习中的能力，还为全新的情境感知决策系统开启了新的篇章。

Nov, 2023

EduQate: 在教育场景中通过 RMABs 生成自适应课程

开发个性化和适应性教育工具的过程中，探索如何以高效方式跨多样但相关内容实现知识掌握成为关键。本论文引入了名为 EdNetRMABs 的 Education Network Restless Multi-armed Bandits，利用网络表示学习内容间的相互关系，并通过 EduQate 方法，使用具有相互依赖性的 Q 学习在每个时间步骤中做出明智的选择，并通过与基准策略对比使用合成和真实数据建模的学生来证明其有效性。

Jun, 2024