BriefGPT.xyz
大模型
Ask
alpha
关键词
dagger
搜索结果 - 5
DADAgger:基于分歧扩增的数据集聚合
本文介绍了一种改进的 DAgger 算法 ——DADAgger,它只针对其原数据集中的分布不一致的状态 - 行动对询问专家,并通过 dropout 模拟来测量每个状态的模型预测的行动方差,进而实现高效、良好平衡的训练数据集的构建。
PDF
2 years ago
关于稳定约束模仿学习的样本复杂度
在模仿学习中,专家策略的稳定性对模仿学习任务的样本复杂度有明显的影响,本文提出了增量收益稳定性约束版本的行为克隆和 DAgger 算法,通过实验验证了依赖任务地平线的泛化界限与系统的稳定性之间的关系。
PDF
3 years ago
EnsembleDAgger:一种安全模仿学习的贝叶斯方法
本文提出一种名为 EnsembleDAgger 的算法,其通过使用神经网络集合来近似高斯过程,并以方差作为信心的衡量标准,在最大化学习效果的同时,限制了失败的可能性,从而提高了机器人的安全性能。
PDF
6 years ago
DropoutDAgger: 一种安全模仿学习的贝叶斯方法
本文提出了一种基于概率 DAgger 的算法,使用了 dropout 训练新手并提供其置信度,通过新手行为分布估计与专家行为相关的安全的概率度量,以平衡探索和利用,在 MuJoCo HalfCheetah 和简单的驾驶实验中证明了与其他 D
→
PDF
7 years ago
端到端自主驾驶的高效查询模仿学习
本论文介绍了一种名为 SafeDAgger 的基于 DAgger 算法的自动驾驶智能学习方法,能够有效地减少对参考策略的查询次数,加快收敛速度。
PDF
8 years ago
Prev
Next