EVA-02：新世纪福音战士的视觉展现

Mar, 2023

EVA-02：新世纪福音战士的视觉展现

EVA-02: A Visual Representation for Neon Genesis

Yuxin Fang, Quan Sun, Xinggang Wang, Tiejun Huang, Xinlong Wang...

TL;DR通过使用 EVA-02，一款基于 Transformer 的视觉表示预训练算法，研究人员证明其在各种代表性视觉任务中具有卓越的性能，并且使用更少的参数和计算预算。

Abstract

We launch eva-02, a next-generation transformer-based visual representation pre-trained to reconstruct strong and robust language-aligned

eva-02 transformer-based pre-training visual representation clip

发现论文，激发创造

EVA-CLIP-18B：扩展到 180 亿参数的 CLIP

EVA-CLIP-18B 是目前最大且最强大的开源 CLIP 模型，拥有 180 亿参数；只看到 60 亿个训练样本，EVA-CLIP-18B 在 27 个广泛公认的图像分类基准中，以异乎寻常的 80.7% 零示例一级准确度表现出色，在模型大小扩展方面，观察到 EVA-CLIP 的持续性能改进；希望通过提供我们的模型权重公开，促进未来在视觉和多模态基础模型方面的研究。

Feb, 2024

EVA: 探索规模下遮蔽式视觉表征学习的极限

我们在这篇论文中提出了 EVA，这是一种基于视觉的基础模型，能够大规模地探索视觉表征的极限，并且只使用公开可用的数据。通过解决预先设定的任务，我们可以有效地将 EVA 扩展到 10 亿个参数，并在诸如图像识别、视频动作识别、目标检测、实例分割和语义分割等广泛的代表性视觉下游任务上创造新的记录，而无需进行大量的监督式训练。

Nov, 2022

冻结的 CLIP 模型是高效的视频学习者

本文提出 Efficient Video Learning (EVL) 框架，使用轻量级 Transformer 解码器和学习查询标记以从 CLIP 图像编码器中动态收集帧级空间特征，进一步采用每个解码器层中的局部时间模块来发现相邻帧及其注意力映射中的时间线索。尽管使用了以前的预训练图像模型，本研究表明 EVL 模型在各种视频识别数据集上都学习了高质量的视频表示方法。

Aug, 2022

非层次化变压器用于行人分割

我们提出了一种解决自主系统中实例分割挑战的方法，特别针对可访问性和包容性。我们的方法利用非层次化的 Vision Transformer 变种 EVA-02，结合级联 Mask R-CNN 掩码头部。通过在 AVA 实例分割挑战数据集上进行微调，我们在测试集上实现了 52.68％的有希望的平均精度（mAP）。我们的结果证明了 ViT-based 架构在增强视觉能力和满足残障人士的独特需求方面的有效性。

Jul, 2023

EVE: 基于掩码预测和模态感知的高效视觉 - 语言预训练

本文介绍了一种高效的视觉 - 语言基础模型 EVE，该模型通过一个统一的预训练任务，在共享的 Transformer 网络中编码了视觉和语言，并利用专注于模态性的稀疏的 Mixture-of-Experts 模块来捕捉模态特定信息。通过对图像 - 文本对进行遮蔽信号建模，EVE 实现了图像像素和文本标记的信号重构，从而达到快速训练和更好的下游性能。

Aug, 2023

CLIPA-v2: 用 1 万美金预算训练，实现 81.1% 的零样本 ImageNet 准确率；再花 4000 美金可获得 81.8% 的准确率

通过研究表明，CLIPA 可以通过反比例尺度律以更低的计算成本实现高性能的训练，可以在 finetuning 阶段进一步减少计算需求，从而实现零样本 Imagenet 准确率的提高。

Jun, 2023

MobileCLIP: 多模态加强训练的快速图像 - 文本模型

在这项研究中，我们引入了 MobileCLIP 这个新的高效图像 - 文本模型系列，通过一种名为多模态增强训练的新颖且高效的训练方法，利用图像字幕模型和一组强大的 CLIP 编码器中的知识转移，将额外的知识存储在增强数据集中而避免了训练时计算开销，从而实现了零样本分类和检索任务的新的最佳延迟 - 准确性权衡。

Nov, 2023

EVA：零射击准确属性和多对象视频编辑

EVA 是一种针对复杂动作的以人为中心的视频编辑框架，利用空间 - 时间布局引导的注意机制和精确的注意权重分布来同时编辑前景和背景，以及实现多属性和跨帧扩散特征的内在正负对应，达到精确的文字到属性操控和身份映射，从而取得实际场景下的最先进结果。

Mar, 2024

EVA2.0：基于大规模预训练的中文开放领域对话系统研究

本文研究大规模预训练对于中文场景下开放域对话系统的影响，提出 EVA2.0 模型，并通过自动和人工评估证明该模型在公开数据集上表现更优，同时讨论了该工作的局限性和未来方向。

Mar, 2022

检索增强对比视觉 - 文本模型

本论文提出了 RECO 模型，该模型通过外部记忆检索获取精细化知识，应用于现有视觉文本模型中，并在 Stanford Cars、CUB-2011 和 OVEN benchmark 等多项任务中取得了显著性能提升。

Jun, 2023