带有噪声引导的主动模仿学习
该论文主要介绍了积极模仿学习(active imitation learning)的概念,通过询问专家对单个状态下预期行为的降低学习难度;引入了一种基于 i.i.d. 积极学习的新方法,并分析了该方法对于非定态(non-stationary)和定态(stationary)策略的可行性和性能;最后,该论文提出了一种实用算法,与其他模型相比在四个测试领域表现出较高的效果。
Oct, 2012
我们研究了交互式模仿学习,其中学习者通过与演示专家的互动查询动作注释,旨在学习一种能够与专家表现竞争性能且使用尽可能少的注释的策略。我们提出了一种名为集成交互式模仿学习(EIIL)的算法框架,可实现此目标。从理论上讲,我们证明了 EIIL 的一个效率优于 oracle 版本能够保证尖锐的后悔,前提是可以访问某个对状态具有 “探索性” 分布的样本。经验上,EIIL 在连续控制任务中明显超过在线和离线模仿学习基准。我们的工作为使用模型集合进行交互式模仿学习的收益开辟了系统研究。
Dec, 2023
该论文提出了将主动学习重新表述为一种强化学习问题,并明确学习数据选择策略,其中策略充当主动学习启发式算法的角色,以解决启发式选择方法的有效性受限且性能因数据集而异的问题。我们使用跨语言命名实体识别来演示我们的方法,发现相对于传统的主动学习,我们的方法获得了均衡的改进。
Aug, 2017
介绍了一种动态感知的逆强化学习方法 ——IQ-Learn,它通过学习单个 Q 函数来避免对抗性训练,并可在标准测试中取得最好的结果,比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。
Jun, 2021
利用主动学习训练策略可以建立一个问题回答模型,以更小的注释成本实现,该策略选择最具信息量的未标记训练数据以有效地更新模型,该研究提出一种基于扰动的主动学习采集策略,并证明其比现有常用策略更有效。
Nov, 2023
本论文提出了一种基于梯度嵌入和预测校准的主动学习方法 Ask-n-Learn,结合数据扩增缓解伪标注期间的确认偏差,通过对基准图像分类任务(CIFAR-10,SVHN,Fashion-MNIST,MNIST)的经验研究,证明了该方法优于最近提出的 BADGE 算法等现有基线。
Sep, 2020
提出了 EfficientImitate 这一基于规划的模仿学习方法,成功地将两类看似不兼容的模仿算法:行为克隆和对抗模仿学习,自然地统一到了一个框架中,实现了在性能和样本效率方面的高水平。
Oct, 2022
本文提出了一种名为 LfGP 的框架来解决在在线强化学习阶段中,由于缺乏探索而导致的分布偏移问题,LfGP 利用了多个探索性辅助任务的专家演示,强制代理程序探索标准 AIL 可能会忽略的状态和动作,实验结果表明,LfGP 在多任务机器人操纵领域中显著优于 AIL 和行为克隆。
Dec, 2022
使用元学习框架,将主动学习算法视为学习问题,并使用强化学习训练一个输入基础学习器状态和未标记点集的深度神经网络,预测下一个最佳注释点,使用多任务数据集嵌入方法,使得算法可以直接推广到不同的问题。
Jun, 2018
本文提出一种风险感知主动逆强化学习算法,旨在最小化机器人正在学习的策略的性能风险,并将主动查询集中在具有潜在大通用误差的状态空间区域,证明该算法在网格世界、模拟驾驶和桌子铺设任务上优于标准主动逆强化学习方法,并提供一种基于性能的停止准则,使机器人知道何时已接受足够的演示以安全地执行任务。
Jan, 2019