MOFI：从带噪实体注释的图像中学习图像表示

Jun, 2023

MOFI：从带噪实体注释的图像中学习图像表示

MOFI: Learning Image Representations from Noisy Entity Annotated Images

Wentao Wu, Aleksei Timofeev, Chen Chen, Bowen Zhang, Kun Duan...

TL;DRMOFI 是一种新的视觉基础模型，通过预先训练和训练技巧，基于通过噪声文本标注的图像表示，提供了 Image-to-Entities（I2E）数据库，其中包括 10 亿个图像和 200 万个不同实体，并达到了 86.66％的平均精度，在大型 Fine-grained 实体标签的受监督预训练中的模型效果尤为明显。

Abstract

We present mofi, a new vision foundation model designed to learn image representations from noisy entity annotated images. mofi differs from previous work in two key aspects: ($i$) →

mofi entity annotation pre-training i2e dataset image retrieval

发现论文，激发创造

多目标插值训练用于标签噪声鲁棒性

通过对比学习和分类联合相互帮助，以对抗标签噪声提高性能，同时提出了一种新的标签噪声检测方法，通过准确识别有争议的 per-sample soft-labels 来防止噪音记忆并改进表示学习。

Dec, 2020

开放领域视觉实体识别：朝着识别数百万维基百科实体迈进

本文正式提出了开放域视觉实体识别（OVEN）这一任务，为评估预训练模型的普适性，构建了一个最大标签数量的通用视觉识别基准数据集。该数据集将 14 个现有的数据集标签全部调整为维基百科实体，其中包含了六百万个可能的实体，我们在此基础上测试了一系列领先的预训练模型，并发现不同的模型各有千秋。

Feb, 2023

MoMo: 一种用于文本、图像和多模态表示的共享编码器模型

本文提出了一种自主监督的共享编码器模型，在数据、内存和运行时效率高的同时，在几个视觉、语言和多模式基准测试中取得了强大结果。

Apr, 2023

检索增强对比视觉 - 文本模型

本论文提出了 RECO 模型，该模型通过外部记忆检索获取精细化知识，应用于现有视觉文本模型中，并在 Stanford Cars、CUB-2011 和 OVEN benchmark 等多项任务中取得了显著性能提升。

Jun, 2023

混合低秩专家用于可传输的人工智能生成图像检测

通过开发通用的人工智能生成图像检测器，该研究旨在识别不同来源的图像。该方法通过深入挖掘 CLIP-ViT 的潜力并保留知识，扩展可传递检测的能力，提出了一种新颖的参数高效的微调方法，使用低秩专家的混合模式在 MoE 结构中融合共享和分离的 LoRAs。通过在公共基准测试中进行大量实验，我们的方法在跨生成器泛化和对扰动的鲁棒性方面实现了超越最先进方法的优越性。值得注意的是，我们表现最佳的 ViT-L/14 变体只需训练其 0.08% 的参数即可将最领先的基线提高 + 3.64% 的 mAP 和 + 12.72% 的平均准确率，超越了仅使用训练数据的 0.28% 的基线。

Apr, 2024

MoPro: 基于动量原型的网络监督学习

本文提出了一种网络监督下的表示学习方法 —— 动量原型（MoPro），它能够在线修正标签噪声、删除分布之外的样本以及学习表示，实现了最先进的 WebVision 数据集性能，以及更好的图像分类和检测任务性能。

Sep, 2020

使用文本图像扩散模型提升人 - 物交互检测

本文提出了一种新的 HOI 检测方案 DiffHOI，通过预先训练的文本 - 图像扩散模型增强了检测器的性能，进一步减少了对交互预测的歧义，并通过 SynHOI 数据集有效缓解现有数据集中的长尾问题，促进了交互表示的学习。

May, 2023

优化过的 CLIP 模型是高效的视频学习器

论文提出了一种用于显式建模时间序列的新型模块，通过视频精调 CLIP 模型，可以将图像级别的表示有效地转移到视频领域，取得了良好的实验效果。

Dec, 2022

CLIP-ReID: 充分利用视觉 - 语言模型进行图像重新识别，无需具体文本标签

本文提出了一种利用 CLIP 模型的文本 - 图像交互能力来解决细粒度图像重识别问题的方法，通过对学习的文本编码器给出模糊的文本描述来增强视觉表示，并通过一系列基于对比度损失的优化训练来优化文本令牌。

Nov, 2022

冻结的 CLIP 模型是高效的视频学习者

本文提出 Efficient Video Learning (EVL) 框架，使用轻量级 Transformer 解码器和学习查询标记以从 CLIP 图像编码器中动态收集帧级空间特征，进一步采用每个解码器层中的局部时间模块来发现相邻帧及其注意力映射中的时间线索。尽管使用了以前的预训练图像模型，本研究表明 EVL 模型在各种视频识别数据集上都学习了高质量的视频表示方法。

Aug, 2022