EVA: 探索规模下遮蔽式视觉表征学习的极限

Nov, 2022

EVA: 探索规模下遮蔽式视觉表征学习的极限

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

Yuxin Fang, Wen Wang, Binhui Xie, Quan Sun, Ledell Wu...

TL;DR我们在这篇论文中提出了 EVA，这是一种基于视觉的基础模型，能够大规模地探索视觉表征的极限，并且只使用公开可用的数据。通过解决预先设定的任务，我们可以有效地将 EVA 扩展到 10 亿个参数，并在诸如图像识别、视频动作识别、目标检测、实例分割和语义分割等广泛的代表性视觉下游任务上创造新的记录，而无需进行大量的监督式训练。

Abstract

We launch eva, a vision-centric foundation model to explore the limits of visual representation at scale using only publicly accessible data. eva

eva visual representation vit pre-trained image-text aligned vision features transfer learning

发现论文，激发创造

EVA-02：新世纪福音战士的视觉展现

通过使用 EVA-02，一款基于 Transformer 的视觉表示预训练算法，研究人员证明其在各种代表性视觉任务中具有卓越的性能，并且使用更少的参数和计算预算。

Mar, 2023

EVA-CLIP-18B：扩展到 180 亿参数的 CLIP

EVA-CLIP-18B 是目前最大且最强大的开源 CLIP 模型，拥有 180 亿参数；只看到 60 亿个训练样本，EVA-CLIP-18B 在 27 个广泛公认的图像分类基准中，以异乎寻常的 80.7% 零示例一级准确度表现出色，在模型大小扩展方面，观察到 EVA-CLIP 的持续性能改进；希望通过提供我们的模型权重公开，促进未来在视觉和多模态基础模型方面的研究。

Feb, 2024

EVE: 基于掩码预测和模态感知的高效视觉 - 语言预训练

本文介绍了一种高效的视觉 - 语言基础模型 EVE，该模型通过一个统一的预训练任务，在共享的 Transformer 网络中编码了视觉和语言，并利用专注于模态性的稀疏的 Mixture-of-Experts 模块来捕捉模态特定信息。通过对图像 - 文本对进行遮蔽信号建模，EVE 实现了图像像素和文本标记的信号重构，从而达到快速训练和更好的下游性能。

Aug, 2023

VideoMAE V2: 基于双重蒙版的视频自编码器扩展

本文介绍了使用视频掩码自编码器（VideoMAE）进行可扩展和一般自监督预训练，用于构建视频基础模型和在各种下游任务中取得新的最先进表现的新方法。

Mar, 2023

寻找一个为具身智能而设计的人工视皮层的进展

该研究是关于预先训练视觉表示（PVRs）或视觉基础模型在具体应用中的最全面的实证研究。研究发现，尽管数据规模和多样性通常能提高性能，但是没有任何一种 PVR 可以普遍占优。然而，通过对 VC-1 进行特定任务适应性的调整，可在 CortexBench 的所有基准测试中实现与最佳结果相当或更好的性能表现。

Mar, 2023

非层次化变压器用于行人分割

我们提出了一种解决自主系统中实例分割挑战的方法，特别针对可访问性和包容性。我们的方法利用非层次化的 Vision Transformer 变种 EVA-02，结合级联 Mask R-CNN 掩码头部。通过在 AVA 实例分割挑战数据集上进行微调，我们在测试集上实现了 52.68％的有希望的平均精度（mAP）。我们的结果证明了 ViT-based 架构在增强视觉能力和满足残障人士的独特需求方面的有效性。

Jul, 2023

用于 (无监督) 实体对齐的视觉枢轴

本文介绍了一种新的方法 EVA，通过图像与其他辅助信息相结合，利用视觉相似度来创建一个初始种子词典，从而提供了一个完全无监督的实体对齐的解决方案。实验结果表明，该方法在单语和跨语言实体对齐任务上均能提供最先进的性能。此外，我们发现图像对于对齐长尾 KG 实体尤其有用。

Sep, 2020

EVA：零射击准确属性和多对象视频编辑

EVA 是一种针对复杂动作的以人为中心的视频编辑框架，利用空间 - 时间布局引导的注意机制和精确的注意权重分布来同时编辑前景和背景，以及实现多属性和跨帧扩散特征的内在正负对应，达到精确的文字到属性操控和身份映射，从而取得实际场景下的最先进结果。

Mar, 2024

ViTamin：设计可扩展的视觉模型在视觉语言时代

该论文介绍了一种基于对比性语言 - 图像预训练框架的视觉模型评估协议，其中引入了一种新的视觉模型 ViTamin，该模型在零样本任务和模型规模扩展等方面表现出色。

Apr, 2024

EVCap：用于开放世界理解的外部视觉名称存储的检索增强图像字幕

该研究介绍了一种基于大型语言模型的图像字幕生成方法，利用外部可视 - 名称记忆检索并提供对象名称，从而更新对象知识记忆，实现对未知对象的理解，并在各种基准测试中展现出优越性能。

Nov, 2023