SpawnNet: 从预训练网络中学习通用可视动作技能
利用自我监督的视觉变换模型及其新出的语义能力,通过聚类外观特征来形成稳定的关键点,从而改善模仿学习策略的泛化能力。本论文介绍了 BC-ViT,一种利用富含 DINO 预训练视觉变换器(ViT)补丁级嵌入的模仿学习算法,以通过示范获取更好的泛化效果。通过对一个多样化的物体操作任务数据集进行模仿学习的评估,证明了这种表示方式能够实现广义行为。为了促进对于模仿学习中泛化问题的进一步研究,我们提供了我们的方法、数据和评估方法。
Nov, 2023
通过对 15 个预训练视觉模型的性能比较,发现视觉出现分割能力是 ViT 模型在分布偏移下的强预测因子。在十个任务中进行广泛测试后,分割分数在离线训练和 50 次演示后预测了真实世界的性能。
Nov, 2023
本文探讨了利用大规模社交媒体图像预测 hashtag 的卷积神经网络进行的迁移学习的行为,并展示了相应的实验结果,证明进行大规模预训练能够显著提高图片分类和物体检测任务的表现。
May, 2018
本文提出了第一个预训练和微调范式,用于视觉语言导航 (VLN) 任务。通过自监督学习方式训练大量的图像 - 文本 - 动作三元组,预训练模型提供通用的视觉环境和语言指令表示,可以轻松地用于现有的 VLN 框架。通过在三个 VLN 任务上验证性能可行性,验证了该方法的有效性和推广性。
Feb, 2020
本研究提出了一个自我监督特征表示学习框架 DreamTeacher,利用生成网络对下游图像骨干进行预训练。通过将经过训练的生成模型中的知识提取到已经针对特定感知任务进行精心设计的标准图像骨干,我们通过两种类型的知识蒸馏来探索在大型标签数据集(例如 ImageNet)上进行预训练的代替方法。在许多生成模型、密集预测基准和几种预训练方案上进行了大量分析,实证发现 DreamTeacher 在各方面均显著优于现有的自我监督表示学习方法,展示了生成模型和扩散生成模型作为大型和多样数据集上的表示学习的一种有前途的方法,而不需要手动注释。
Jul, 2023
通过训练神经网络从一个孩子的视觉经验中学习,我们研究了基于本能的约束和基于经验的影响对于孩子内部模型的形成的影响,并发现在没有强烈的归纳偏见的情况下,孩子的代表性样本足以从其中获得广泛有用的高级视觉表示。
May, 2023
研究表明,预训练的视觉表示方法对于控制任务的学习同样有效,甚至在某些情况下可以优于基于真实状态的表示方法,而这些预训练模型仅需要使用标准视觉数据集,而不需要在目标环境中使用真实数据。
Mar, 2022
大规模实证研究表明预训练视觉表示(PVRs)的使用对训练执行现实任务的下游策略非常有用,尤其在操作和室内导航任务中表现出明显的性能优势。
Oct, 2023
本文提出了一种名为 PPGeo 的全自监督框架,通过对大规模不加标定、未标注的 YouTube 自驾视频建模,学习有关 visuomotor driving 的方针表示,从而解决样本不足和决策信息过剩等问题,并在多方面挑战性场景下取得了较大的改进。
Jan, 2023
本文旨在学习视觉先验,并通过生成预训练学习 Visual prior,以最大化可能性建模对象位置和形状等先验信息,进而能够在许多视觉任务中应用。实验结果表明,可用于多种视觉任务,例如控制网络中的条件图像合成模型,并提供代码供参考。
May, 2023