一种离线时序学徒学习框架用于进化奖励函数

May, 2023

一种离线时序学徒学习框架用于进化奖励函数

An Offline Time-aware Apprenticeship Learning Framework for Evolving Reward Functions

Xi Yang, Ge Gao, Min Chi

TL;DR本研究提出了一种离线时间感知分层 EM 能量子轨迹的学习框架，以应对医疗保健等人类中心任务中出现的不断变化的奖励函数，实验结果表明 THEMES 可以明显优于竞争的最新基线。

Abstract

apprenticeship learning (AL) is a process of inducing effective decision-making policies via observing and imitating experts' demonstrations. Most existing AL approaches, however, are not designed to cope with the evolv

apprenticeship learning evolving reward functions offline learning hierarchical em energy-based sub-trajectory sepsis treatment

发现论文，激发创造

建模异质学生教学策略的通用学徒学习框架

提出了一种从具有异构奖励函数的优化或近优演示中诱导出有效教学策略的通用 AL 框架，并与四种基于 AL 的基准方法和两种基于 DRL 的策略在涉及教学行为预测的两个不同但相关任务上进行了对比，结果表明 EM-EDM 在所有性能指标上优于四种 AL 基准方法和两种 DRL 基准方法，能够通过管理大量连续状态空间并适应处理多样和异构的奖励函数来有效建模复杂的学生教学决策过程。

Jun, 2024

离线基于偏好的学徒学习

该研究提出了一种利用离线数据进行奖励函数学习和策略优化的方法，该方法不需要真实物理试验或准确的模拟器，并能够学习完成离线数据未曾显示的新任务。

Jul, 2021

安全感知式学徒学习

本文提出了一种基于概率模型检查的学徒式学习算法，可确保在仍能保持性能的情况下实现安全性，将未知奖励函数视为状态特征的线性组合，并以概率计算树逻辑为基础的安全属性规范。

Oct, 2017

在线学徒式学习

本研究为解决没有成本函数难题，提出 Online Apprenticeship Learning (OAL) 算法，通过两个镜像下降算法，优化策略和学习最坏成本，采用乐观探索得出收敛性和算法误差，并实现了基于深度学习的 OAL 算法，并在互动控制问题中表现优秀。

Feb, 2021

离线基于偏好的奖励学习的基准和算法

本文提出了一种利用离线数据进行偏好学习的方法，通过基于池的主动学习生成偏好查询，学习奖励函数的分布，通过离线强化学习优化相应的策略，从而使代理人能够在未显示的离线数据中学习执行新任务。

Jan, 2023

逆强化学习与梯度方法的学徒学习

本文提出了一种新的梯度算法，用于从专家观察行为中学习策略，假设专家根据某种未知奖励函数行动最优，算法的目标是找到一个奖励函数使得最优策略与专家观察行为匹配良好，并且在两个人工数据集中表现更加可靠和高效。

Jun, 2012

深度学徒学习在游戏中的应用

这篇论文提出了一种新的学习方法，基于以前在强化学习中的监督学习技术，使用 Atari 游戏的视频帧来教授人工智能代理玩游戏，虽然结果不如强化学习的最新成果，但证明这种方法有潜力并值得进一步研究。

May, 2022

人机协同优化通过学徒调度

通过成对排名的形式来捕捉领域专家的启发式方法，以推动人机协作优化。此技术在武器到目标指派问题上表现出比人类专家产生的解更好，而且速度更快，可用于解决比人类演示者解决的问题的两倍复杂问题。

May, 2018

通过辅助变量的局部探索学习离散能量模型

本文提出一种名为 ALOE 的算法，该算法可以学习用于离散结构数据的有条件和无条件能量模型，其参数梯度使用模拟局部搜索的学习取样器进行估计，并且通过一种新的变分幂迭代形式有效地训练能量函数和取样器。实验结果表明，在软件测试等应用领域中，学习局部搜索可以取得显著的改进。

Nov, 2020

自适应基于梯度的元学习方法

本文提出了一种理论框架来设计和理解实用的元学习方法，该方法将任务相似性的复杂形式化与在线凸优化和序列预测算法的广泛文献融合。该方法使任务相似性能够自适应地学习，为统计学习 - to-learn 的转移风险提供更加精确的界限，并在任务环境动态变化或任务共享一定几何结构的情况下，导出高效算法的平均情况后悔界限。我们使用该理论修改了几种流行的元学习算法，并在少样本学习和联邦学习的标准问题上改善了它们在元测试时的性能。

Jun, 2019