visual pretraining | BriefGPT

关键词visual pretraining

搜索结果 - 4

3D-MVP：用于机器人操纵的三维多视角预训练
提出了 3D-MVP，一种使用遮罩自编码器进行 3D 多视图预训练的新方法，通过在大规模 3D 数据集上使用遮罩自编码器对其视觉编码器进行预训练，评估了其在虚拟机器人操作任务中的性能并展示了超过基线的改进，同时在实际机器人平台上也取得了令人
PDF10 days ago
利用大规模视觉模型增强机器人抓取的简要调查
通过大规模视觉预训练探索提高机器人抓握性能的潜在益处，并对视觉预训练在机器人操纵中的关键挑战和未来研究方向进行了初步文献综述。
PDF19 days ago
LocCa：具有位置感知字幕的视觉预训练
在本文中，我们提出了一种简单的可感知位置的图像预训练方法（LocCa），它使用一个简单的图像标题生成任务接口，在图像像素输入的条件下教导模型以读取丰富的信息，如边界框坐标和标题。通过编码器 - 解码器体系结构的多任务能力，我们展示了图像标题
PDF3 months ago
视觉预训练是否有助于端到端推理？
本文旨在探究是否可以通过视觉预训练使通用神经网络实现视觉推理的端到端学习。我们提出了一个简单的自监督框架，并在两个视觉推理基准上进行了评估。结果表明预训练对于实现复合泛化是必要的，并且我们提出的框架明显优于传统的监督预训练。
PDFa year ago