利用适应性课程和情境赌博机提高学生完成率
本文介绍了一种智能辅导系统的方法,该系统根据学生特定的时间和动机资源,自适应地个性化地最大化学习活动序列,以提高学生的技能,利用了内在动机学习的最新模型,并运用多臂老虎机技术进行优化,同时基于专家知识来加速探索初始启动
Oct, 2013
在线商业领域,推荐系统对增强用户体验至关重要。本篇研究论文探讨了基于上下文的强化学习模型 —— 上下文强化学习框架,作为实现个性化推荐的强大工具。我们深入研究了该领域中的挑战、先进算法与理论、协同策略,以及开放性问题和未来前景。与现有相关教程不同,(1)我们专注于上下文强化学习的探索视角,以减轻推荐系统中的 “马太效应”,即物品的热门度导致富者更富、贫者更贫;(2)除了传统的线性上下文强化学习,我们还将专注于神经上下文强化学习,近年来成为重要的分支,从经验和理论两方面探究神经网络如何增进上下文强化学习的个性化推荐;(3)我们将介绍最新的话题 —— 协同神经上下文强化学习,以结合用户异质性和用户相关性,为推荐系统定制;(4)我们将提供和讨论神经上下文强化学习在个性化推荐中的新兴挑战和未解问题,特别是对于大型神经模型。
Dec, 2023
该研究提出了通过构建学生的虚拟模型来实现教学策略优化的框架,并在实验中使用该数学模型进行了教学,结果表明其性能与传统教学方法相当。该框架可作为理论教学优化和电子学习系统实际应用之间的缓冲。
Jul, 2021
本文提出了一种新的分布式在线学习框架,将学习者建模为合作的情境赌博机,分析了分布式在线学习算法和完全知识基准的效率,研究表明后者在时间上失误是亚线性的,该理论框架可用于许多实际应用中,包括大数据挖掘、监视传感器网络事件检测和分布式在线推荐系统。
Aug, 2013
本文讨论了利用上下文决策来改善微软虚拟客服所取得的成就,其中集中讨论了强化学习在自然语言处理和信息检索等领域的应用,同时也提供了解决这些挑战的实用方法。
May, 2019
本文讨论了使用上下文赌博机(CB)的微软虚拟代理的实现情况,包括基于神经 - 线性赌博机(NLB)的意图消岐和基于一组多臂赌博机(MAB)的上下文推荐。我们的解决方案已经落地生产并通过 A/B 测试证实了业务指标的改进,包括问题解决率相对增加了 12%以上,转移到人工操作员的相对减少了 4%以上。
Dec, 2021
通过将大型语言模型与情境赌博算法框架相融合,加强了对于情境的表示,提供更密集且更丰富的视角,初步结果表明这种方法的潜力,与传统赌博算法相比,在累积奖励上有显著改善,且减少了后悔。这种整合不仅展示了大型语言模型在强化学习中的能力,还为全新的情境感知决策系统开启了新的篇章。
Nov, 2023
开发个性化和适应性教育工具的过程中,探索如何以高效方式跨多样但相关内容实现知识掌握成为关键。本论文引入了名为 EdNetRMABs 的 Education Network Restless Multi-armed Bandits,利用网络表示学习内容间的相互关系,并通过 EduQate 方法,使用具有相互依赖性的 Q 学习在每个时间步骤中做出明智的选择,并通过与基准策略对比使用合成和真实数据建模的学生来证明其有效性。
Jun, 2024