建模异质学生教学策略的通用学徒学习框架

Jun, 2024

建模异质学生教学策略的通用学徒学习框架

A Generalized Apprenticeship Learning Framework for Modeling Heterogeneous Student Pedagogical Strategies

Md Mirajul Islam, Xi Yang, John Hostetter, Adittya Soukarjya Saha, Min Chi

TL;DR提出了一种从具有异构奖励函数的优化或近优演示中诱导出有效教学策略的通用 AL 框架，并与四种基于 AL 的基准方法和两种基于 DRL 的策略在涉及教学行为预测的两个不同但相关任务上进行了对比，结果表明 EM-EDM 在所有性能指标上优于四种 AL 基准方法和两种 DRL 基准方法，能够通过管理大量连续状态空间并适应处理多样和异构的奖励函数来有效建模复杂的学生教学决策过程。

Abstract

A key challenge in e-learning environments like intelligent tutoring systems (ITSs) is to induce effective pedagogical policies efficiently. While Deep Reinforcement Learning (DRL) often suffers from sample ineff

e-learning environments intelligent tutoring systems deep reinforcement learning apprenticeship learning expectation-maximization(em)-edm

发现论文，激发创造

一种离线时序学徒学习框架用于进化奖励函数

本研究提出了一种离线时间感知分层 EM 能量子轨迹的学习框架，以应对医疗保健等人类中心任务中出现的不断变化的奖励函数，实验结果表明 THEMES 可以明显优于竞争的最新基线。

May, 2023

为什么导向式对话策略学习表现良好？理解对抗性学习及其替代方案的作用

本文介绍了一种通过分析对话策略和奖励估计器的目标函数，从而消除对抗性学习对奖励估计和对话策略学习的影响，同时保留其优势的方法，该方法在 MultiWOZ 等多域任务为导向的对话语料库上进行了检验。

Jul, 2023

逆强化学习与梯度方法的学徒学习

本文提出了一种新的梯度算法，用于从专家观察行为中学习策略，假设专家根据某种未知奖励函数行动最优，算法的目标是找到一个奖励函数使得最优策略与专家观察行为匹配良好，并且在两个人工数据集中表现更加可靠和高效。

Jun, 2012

基于 EM 的可证明分层模仿学习

本文利用潜在变量模型将层次化模仿学习问题转化为参数推断，理论上表征了 Daniel 等人（2016）提出的 EM 方法。研究了种群水平算法作为中间步骤的性能保证，证明了该算法在一定的正则条件下以高概率收敛于真实参数周围的范数球上。据我们所知，这是第一个仅观察原始状态 - 动作对的层次化模仿学习算法的性能保证。

Oct, 2020

在线学徒式学习

本研究为解决没有成本函数难题，提出 Online Apprenticeship Learning (OAL) 算法，通过两个镜像下降算法，优化策略和学习最坏成本，采用乐观探索得出收敛性和算法误差，并实现了基于深度学习的 OAL 算法，并在互动控制问题中表现优秀。

Feb, 2021

安全感知式学徒学习

本文提出了一种基于概率模型检查的学徒式学习算法，可确保在仍能保持性能的情况下实现安全性，将未知奖励函数视为状态特征的线性组合，并以概率计算树逻辑为基础的安全属性规范。

Oct, 2017

通过深度强化学习元学习可转移的主动学习策略

使用元学习框架，将主动学习算法视为学习问题，并使用强化学习训练一个输入基础学习器状态和未标记点集的深度神经网络，预测下一个最佳注释点，使用多任务数据集嵌入方法，使得算法可以直接推广到不同的问题。

Jun, 2018

异构演示中终身学习的策略探索与混合

本文提出了一种基于 Learning from Demonstration (LfD) 框架的新算法 Dynamic Multi-Strategy Reward Distillation (DMSRD)，通过提取不同人给出的演示中的共同知识，构建混合策略以实现个性化和高效的机器人学习，实验结果表明，该算法表现出了明显的优越性。

Feb, 2022

连续参数环境下深度强化学习课程学习的教师算法

本研究探讨如何使用教师算法使得未知的深度强化学习算法的学习在不同的环境中变得能够拓展。研究表明，教师算法可以通过学习生成一系列逐步采样的参数来控制生成的随机过程环境，使其最终有效地提高学生的知识水平。通过建立连续赌博问题的代理模型，我们提出了一种新算法来建模绝对学习进展。我们还针对 DRL 算法进行了全面的研究，通过对 BipedalWalker 环境的参数化变体，我们研究了算法快速个性化建立不同学生的学习计划的效率，以及对可学环境 / 不可学环境的比率的鲁棒性，以及对于高维参数空间的可扩展性

Oct, 2019

强化学习中勘探对泛化的重要性

基于探索的深度强化学习方法对新环境具有良好的泛化能力，通过使用一种基于 Q 值分布集合的探索方法，该算法在 Procgen 和 Crafter 两个高维强化学习一般化基准上取得了最新的进展。

Jun, 2023