离线强化学习和模仿学习的引导式数据增强

Oct, 2023

离线强化学习和模仿学习的引导式数据增强

Guided Data Augmentation for Offline Reinforcement Learning and Imitation Learning

Nicholas E. Corrado, Yuxiao Qu, John U. Balis, Adam Labiosa, Josiah P. Hanna

TL;DR通过人工引导的数据增强 (GuDA) 框架实现学习从示范中，以通过离线强化学习和行为克隆算法提取策略，有效地利用少量次优演示来提升机器人控制策略的学习性能。

Abstract

learning from demonstration (LfD) is a popular technique that uses expert demonstrations to learn robot control policies. However, the difficulty in acquiring expert-quality demonstrations limits the applicabilit

learning from demonstration data augmentation robot control policies offline reinforcement learning behavior cloning

发现论文，激发创造

基于环境限制的示教学习增强

文章介绍了一种学习自演示 (LfD) 方法，用于应对带有关节机制的接触丰富的操作任务。从单个人类演示中提取的策略可以推广到相同类型的不同机制，并且对环境变化具有鲁棒性，其关键是通过与环境有目的地交互来自主增强初始演示以收集附加信息。针对多 DOF 的复杂机制的实际实验表明，我们的方法可以可靠地完成任务。

Oct, 2022

使用引导式辅助监督学习端到端自主驾驶

通过提出的多任务学习框架，其中使用监督辅助任务预测来指导预测驾驶命令的主要任务，实现了灵敏度和表现性能的提高，同时还增加了模型的透明度。通过在 CARLA 模拟器中的实验验证了该框架的效果。

Aug, 2018

如何通过示范高效地教导机器人？

通过使用信息熵作为准则，建议教师给出更具信息量的示范样例，从而提高机器人学习效率。使用增强现实引导系统对初学者进行训练，从熵最高的区域产生额外的示范，并在同一任务（保留）和新任务（转移）上测试性能，结果发现机器人的学习效率大幅提高，与启发式规则相比提高了 210%。

Oct, 2023

LatentAugment：通过引导操控 GAN 的潜空间进行数据增强

数据增强技术（Data Augmentation）通过生成具有真实图像外观的合成样本，提高了深度模型的泛化性能，而 LatentAugment 更进一步地增加了样本的多样性和准确性，优于标准数据增强和基于生成对抗网络（GAN）的采样。

Jul, 2023

机器人运动生成与调整的导引解码

我们通过集成演示学习（LfD）到运动生成过程中，在复杂环境中（包括障碍物、通过点等）解决了高自由度机械臂的运动生成问题。我们通过在大规模模拟轨迹数据集上训练一个基于条件变分自动编码器变压器的结构，学习了关键的运动生成技能，并将其适应辅助任务和约束条件。我们的自回归方法实现了来自物理系统的实时反馈整合，增强了运动生成的适应性和效率。我们表明，我们的模型可以从初始点和目标点生成运动，同时也能够适应复杂任务的轨迹规划，包括障碍物避让、通过点和速度、加速度限制，在多种平台上实现。

Mar, 2024

视觉强化学习中数据增强的全面调查

本文提供了关于数据扩增在视觉强化学习中应用的广泛评论。作者提出了一个统一的框架，研究了数据扩增技术在视觉强化学习中的作用，并提供了一些方法来更好地利用扩增数据。最后，作者还通过系统的实证评估，总结了本文的研究内容及未来研究工作的展望。

Oct, 2022

多样行为的鲁棒性模仿

本文提出了一种基于变分自编码器的策略嵌入方法，相比传统的监督学习方法和生成对抗网络的模仿学习，该方法可以从更少的示范数据中学习到更为鲁棒的控制器，并避免了模式坍塌现象。

Jul, 2017

学习更少，学得更好：有效增强对视觉强化学习的样本效率

本文探究了数据增强技术在视觉强化学习中的有效性，研究数据增强的相关特征对样本效率的影响并提出了新的操作方法 Random PadResize 和循环增强（Cycling Augmentation）以提高样本利用效率。在 DeepMind 控制套件和 CARLA 驾驶模拟器上的广泛评估表明，与先前的最先进方法相比，我们的方法实现了更好的样本效率。

May, 2023

从引导式游玩中学习：利用简单辅助任务改进对抗性模仿学习的探索

本文提出了一种名为 LfGP 的框架来解决在在线强化学习阶段中，由于缺乏探索而导致的分布偏移问题，LfGP 利用了多个探索性辅助任务的专家演示，强制代理程序探索标准 AIL 可能会忽略的状态和动作，实验结果表明，LfGP 在多任务机器人操纵领域中显著优于 AIL 和行为克隆。

Dec, 2022

HG-DAgger：人机交互式模仿学习

本研究提出了 HG-DAgger 算法，该算法是 DAgger 算法在交互式人机模仿学习方面更为适用的变体，它不仅训练一个初学者策略，还学习了基于模型不确定性的风险度量的安全阈值，以预测状态空间中不同区域的完全训练初学者的性能，在模拟和实际的自动驾驶任务中，HG-DAgger 算法表现出比 DAgger 和行为克隆更好的性能。

Oct, 2018