关键词visual representation learning
搜索结果 - 50
- 观点可能是误导性的:通过特征空间增强改进的 SSL
我们探索了虚假特征对自监督学习的影响,表明常用的数据增强方法可能导致图像空间中不想要的不变性。基于这些发现,我们提出了一种方法(LateTVG),通过修剪编码器的后续层来在预训练过程中消除虚假信息,这种方法在几个基准测试中超过了基线方法,而 - 加强知识的视觉语言预训练在计算病理学中的应用
本文研究了计算病理学的视觉表征学习问题,通过利用来自公共资源的大规模图像 - 文本对和病理学中的领域特定知识。我们首次构建了包含 50,470 个有信息量的属性、涵盖 32 种人体组织下的 4,718 种需要病理诊断的疾病的病理知识树。我们 - 超越嵌入:多模型中视觉表格的潜力
本研究提出了一种用于多模态大型语言模型的新型视觉表达方法 ——Visual Table,它提供了层次化的视觉场景文本描述,并包括了场景描述和多个以对象为中心的描述,涵盖了类别、属性和实例级别的知识。通过生成的视觉表格作为额外的视觉表示,我们 - 使用多级优化的掩码自编码器中的下游任务引导掩码学习
Multi-level Optimized Mask Autoencoder (MLO-MAE) is a novel framework for visual representation learning that leverages - 像素句子表示学习
通过视觉表征学习方法及无监督学习,我们提出了一种对文本进行语义学习的框架,借鉴认知科学和语言学的概念,利用错别字和词序混排等方法进行文本扰动,实现对文本的连续感知,并通过大规模无监督主题对齐训练和自然语言推理监督,达到与现有自然语言处理方法 - 视觉曼巴:具有双向状态空间模型的高效视觉表示学习
本文提出了一种新的通用计算机视觉基础模型 Vim,该模型采用双向状态空间模型对图像序列进行标记并压缩视觉表示,并在 ImageNet 分类、COCO 目标检测和 ADE20k 语义分割任务中取得了比 DeiT 等常见视觉转换器更高的性能,同 - 语言模型的视觉检查
文中系统评估了大型语言模型(LLMs)生成和识别各种复杂视觉概念的能力,并展示了如何使用文本模型训练初步的视觉表示学习系统。实验结果表明,通过精确地建模字符串,语言模型可以在视觉世界的多个方面展现出作用,同时使用文本模型生成的图像进行的自监 - 从模型学习视觉:模型对抗学习视觉
通过合成图像和合成标题无需真实数据地学习视觉表征,SynCLR 方法在对合成图像进行对比学习的基础上,将得到的表征在多个下游任务中转移,与其他通用视觉表征学习算法相比,在图像分类任务中表现出色;此外,在诸如语义分割等密集预测任务中,SynC - T3D:通过视觉 - 语言预训练实现三维医学图像理解
T3D 是为高分辨率 3D 医学图像设计的首个 VLP 框架,通过两个文本感知的预训练任务,即文本感知的对比学习和文本感知的图像恢复,从高分辨率的 3D 医学图像中学习 3D 视觉表示,整合临床知识,拥有在器官和肿瘤分割以及疾病分类等任务中 - 架构的重要性:揭示图对比学习中的隐式机制
通过对图对比学习方法进行系统研究,我们发现了图对比学习方法中与视觉对比学习方法不同的一些共同现象,包括正样本对于图分类和采用特定归一化模块进行节点分类时并不是必需的,而且数据增强对于图对比学习的影响较小。通过揭示图神经网络的内在归纳偏差是如 - 关于视觉 - 动作预训练数据集的客观观察
通过对机器人的预训练数据集进行集中分析,我们发现常规视觉数据集对于视觉 - 运动表示学习是竞争力强的选择,此外,预训练数据集的图像分布比其规模更为重要,同时简单的正规化策略可以显著改善真实世界策略学习。
- H-InDex: 手动信息增强在熟练操纵中的视觉强化学习
我们提出了一种基于人手的视觉表征学习框架,用于解决复杂的巧妙操作任务,并通过强化学习的方式进行训练。
- 诊断和利用视频游戏的计算需求进行深度强化学习
通过提出学习挑战诊断器 (LCD) 并使用其在 Procgen 基准测试中发现新的挑战分类,研究报道了在优化深度强化学习算法时出现的多种失败情况,并为更高效的进展提供了一条路径。
- 基于基础模型的少样本全景分割
借助任务不可知的图像特征,我们提出了 SPINO 方法,该方法可以通过仅使用十个带注释的图像来预测高质量的伪标签,从而实现少样本全景分割,同时为基于基础模型的学习复杂视觉识别任务铺平了道路。
- 面具扩散 + 任务感知:教学视频中的程序规划
在教学视频的程序规划中,处理由多个属于不同任务的动作类型组成的决策空间是一个关键挑战。为了理解现实世界的视频内容,人工智能代理系统必须能够根据简要的视觉观察熟练地区分这些动作类型,并能够捕捉这些动作类型与任务目标之间的复杂语义关系以及可变的 - 视觉表示学习中的类别级别结构关系建模与平滑
本文提出了一个名为 CSRMS 的框架,包括类级关系建模、类感知图采样和关系图引导表示学习模块,以建模数据集的关系图,并执行类感知平滑和正则化操作以减轻类内视觉多样性和类间相似度问题。实验证明结构化知识建模对增强表示学习具有有效性,并表明 - 使用语义地图监督学习导航视觉表征
我们提出了一种新颖的导航特定的视觉表示学习方法,通过对比代理的自我中心视图和语义地图(Ego$^2$-Map),将地图中的紧凑且丰富的信息转移到代理的自我中心表示中,从而实现室内导航。我们的实验结果表明,采用我们学习到的表示的代理在目标导航 - 自监督变压器中的亲和关注预测人类物体分组动态
提出了一种基于自监督 Transformer 模型的人类目标注意力扩散和分割模型,其通过图像中不同区域之间的特征亲和信号实现目标内的注意力扩散。研究发现,基于该模型的亲和扩散能够显著提高自然图片中对象分组的准确性,为评估不同视觉表征学习模型 - HMSN: 使用理想原型进行聚类的双曲超球面自监督学习
本文研究使用超几何流形来进行自监督学习中的原型聚类。作者扩展了遮蔽孪生网络以操作包含理想边界的超几何空间,并利用超几何投影来确保下游任务的表示保持超几何性。实验证明这种方法在极少样本学习任务中具有改进,并在低维线性评估任务中与欧几里得方法相 - 面向少样本类增量学习的演进式字典表示
本文提出了一种解决 few-shot class-incremental learning 问题的方法,使用深度字典学习和视觉表示学习相结合的混合学习架构,同时在基础阶段优化字典和特征提取,而只在增量阶段对字典进行优化以适应新的类别,同时在