关键词apprenticeship learning
搜索结果 - 13
- 建模异质学生教学策略的通用学徒学习框架
提出了一种从具有异构奖励函数的优化或近优演示中诱导出有效教学策略的通用 AL 框架,并与四种基于 AL 的基准方法和两种基于 DRL 的策略在涉及教学行为预测的两个不同但相关任务上进行了对比,结果表明 EM-EDM 在所有性能指标上优于四种 - 信号时态逻辑导引的学徒学习
通过将描述高层任务目标的时间逻辑规范编码为图形来定义基于时间的度量,以改进推断奖励和策略的质量,实验表明我们的框架通过极大地提高学习控制策略所需的演示数量,克服了之前文献的缺点。
- 教会我学习的方法:一种面向用户中心的神经符号学习对于机器人手术系统的综述
近期机器学习模型的进展使得机器人能够在感知非符号化级别上识别物体 (例如,通过传感器融合和自然语言理解)。然而,这些主要的黑盒学习模型仍然缺乏解释性和可转移性,需要大量数据和计算需求。一种替代方案是通过混合神经符号学习方法和专家反馈 (即人 - 一种离线时序学徒学习框架用于进化奖励函数
本研究提出了一种离线时间感知分层 EM 能量子轨迹的学习框架,以应对医疗保健等人类中心任务中出现的不断变化的奖励函数,实验结果表明 THEMES 可以明显优于竞争的最新基线。
- 通过学徒式学习实现基于主题的文本生成图像
本文介绍了一种基于 SuTI 的主体驱动图像生成器,它采用集体学习算法来替代特定主体的在线学习过程,可以快速生成高质量、定制化的主体特有图像。
- AAAI在线学徒式学习
本研究为解决没有成本函数难题,提出 Online Apprenticeship Learning (OAL) 算法,通过两个镜像下降算法,优化策略和学习最坏成本,采用乐观探索得出收敛性和算法误差,并实现了基于深度学习的 OAL 算法,并在互 - 关于模仿学习价值偏差的研究
本文提出了一种基于差异传播分析法来分析模仿学习方法理论特性的框架,该框架揭示了模仿学习方法在不同设置下的价值差异。通过理论与实验的结合,我们首次分析了 GAIL 的性能表现,并发现该方法具备比行为克隆更少的复利误差,这为模仿学习算法的未来改 - 通过 Frank-Wolfe 实现学徒式学习
研究使用 Frank-Wolfe 算法解决无显式奖励函数的 Markov 决策过程中的学徒学习问题,提出将专家的特征期望投影到特征期望凸多面体上,使用凸优化的 FW 算法来优化目标函数,得到更紧的收敛界,尤其是当采用 “步进调整” 方法时, - 带深度继承特征的真正批量学徒学习
本篇论文介绍了一种新的学徒式学习算法,通过仅利用专家行为批量数据来学习专家的潜在奖励结构,并使用深继承特征网络 (DSFN) 来估计特征期望值和过渡规范化模仿网络来产生高效的特征表示和接近专家的初始政策,实现了对临床 Intensive C - 安全感知式学徒学习
本文提出了一种基于概率模型检查的学徒式学习算法,可确保在仍能保持性能的情况下实现安全性,将未知奖励函数视为状态特征的线性组合,并以概率计算树逻辑为基础的安全属性规范。
- ProjectionNet: 使用神经投影学习高效的设备端深度神经网络
引入一种新的紧凑型神经网络结构,该结构使用联合优化框架进行训练,包括一个全训练神经网络和一个利用随机投影进行输入或中间表示转换的简单的 “投影” 网络。使用全网络来指导投影网络的训练。经过训练的小型网络可以用于低内存和计算成本的推理,并且在 - 无模型模仿学习与策略优化
在模仿学习中,我们使用基于样本的方法开发了一种基于策略梯度的算法,即通过学习专家的样本轨迹,找到至少与专家策略一样好的参数化随机策略;该算法可以应用于高维度环境,并保证收敛到局部最小值。
- ICML部分观测环境下模型参数的学徒学习
通过推断专家演示背后的行动选择过程,学习具有一定不确定性的部分可观测环境中的任务,可以更准确地估计 POMDP 参数并从短暂演示中获得更好的策略,与仅从环境反应学习的方法相比更为有效。