关键词visual representation learning
搜索结果 - 50
- Solo-learn:自监督可视化表示学习方法库
这篇论文介绍了一个名为 solo-learn 的自我监督学习方法库,旨在为研究和工业界提供易于使用的自我监督学习方法,并通过 SSL 解决方案使其普及化,以在更小的基础架构上利用大预算。该方法库具有分布式训练管道、在线线性评估等功能,并提供 - TokenLearner:8 个学习到的令牌能为图像和视频做什么?
本文介绍了一种新的视觉表示学习方法,它依赖于少量自适应学习的令牌,并适用于图像和视频理解任务。与依赖手动设计的分割策略和处理大量密集抽样补丁以获取注意力的方法不同,我们的方法学习从视觉数据中挖掘重要令牌,从而有效地找到一些重要的视觉令牌,并 - 使用跨流原型对比的自监督视频表示学习
本文提出了一种新的方法 “Video Cross-Stream Prototypical Contrasting”,结合 RGB 和光流视图预测出一致的原型赋值,从而学习到嵌入动态信息的更高效的视频嵌入,取得了最佳的最近邻视频检索和动作识别 - 大规模视觉食品识别
该研究介绍了一个称为 Food2K 的当前最大的含有 2000 个类别和超过 100 万张图像的食品识别数据集,为进行视觉表示学习提供了挑战性的基准,同时建议了一种深度递进区域增强网络方法进行食品识别,旨在最大化视觉特征的差异以实现更好地泛 - ICCV对比学习视觉表示的可转移性广泛研究
本文通过研究在 12 个不同领域和物体检测任务中的线性评估、全网络转移和少样本识别等方面,系统地探讨了对比学习的不同方法学习到的表示的可迁移性,结果表明对比方法学习到的表示很容易适应不同的任务。除此之外,自监督对比损失与交叉熵 / 监督对比 - AAAIAXM-Net:人员重新识别的隐式跨模态特征对齐
本研究提出了一种基于卷积神经网络的新型架构,用于学习语义对齐的跨模态视觉和文本表示,其以 AXM-Block 作为基本构建块,动态地利用两种模态的多尺度知识,并根据共享语义重新校准每种模态。该框架利用文本数据作为视觉表示学习的超级注释信号, - 分层组合自监督视觉表示学习
本文提出了一种从原始视觉分组能力启动视觉表示学习的框架,操作化分组通过轮廓检测器,该检测器将图像分割成区域,并将这些区域合并成树形层次结构。实验表明,我们的方法朝着通用预训练方法的方向发展,其对下游任务有益,并可用于语义区域搜索和基于视频的 - ICML面向领域无关性对比学习
该研究提出了一种新颖的领域无关对比学习方法 DACl,利用 Mixup 噪声在输入或隐藏状态级别上不同地混合数据样本来创建相似和不相似的示例,并在各种领域进行实验,结果表明 DACl 不仅优于其他领域无关的噪声方法,而且与 SimCLR 等 - S3K: 自监督语义关键点多视角一致性用于机器人操作
本文探讨机器人行动的基本局限性和现有的视觉表征学习方法存在的问题,并提出利用语义三维关键点作为视觉表征的方法,通过半监督训练,使其精度达到毫米级别,能够帮助定义强化学习的奖励函数并作为代理训练的有效表征。
- S4L:自监督半监督学习
本研究探讨了图像分类器的半监督学习问题,提出了自监督半监督学习框架,并使用该框架派生出两种新的半监督图像分类方法。在 ILSVRC-2012 测试中,证明了该方法与现有半监督学习方法相比的有效性和新的最佳结果。