EVA-02:新世纪福音战士的视觉展现
EVA-CLIP-18B 是目前最大且最强大的开源 CLIP 模型,拥有 180 亿参数;只看到 60 亿个训练样本,EVA-CLIP-18B 在 27 个广泛公认的图像分类基准中,以异乎寻常的 80.7% 零示例一级准确度表现出色,在模型大小扩展方面,观察到 EVA-CLIP 的持续性能改进;希望通过提供我们的模型权重公开,促进未来在视觉和多模态基础模型方面的研究。
Feb, 2024
我们在这篇论文中提出了 EVA,这是一种基于视觉的基础模型,能够大规模地探索视觉表征的极限,并且只使用公开可用的数据。通过解决预先设定的任务,我们可以有效地将 EVA 扩展到 10 亿个参数,并在诸如图像识别、视频动作识别、目标检测、实例分割和语义分割等广泛的代表性视觉下游任务上创造新的记录,而无需进行大量的监督式训练。
Nov, 2022
本文提出 Efficient Video Learning (EVL) 框架,使用轻量级 Transformer 解码器和学习查询标记以从 CLIP 图像编码器中动态收集帧级空间特征,进一步采用每个解码器层中的局部时间模块来发现相邻帧及其注意力映射中的时间线索。尽管使用了以前的预训练图像模型,本研究表明 EVL 模型在各种视频识别数据集上都学习了高质量的视频表示方法。
Aug, 2022
我们提出了一种解决自主系统中实例分割挑战的方法,特别针对可访问性和包容性。我们的方法利用非层次化的 Vision Transformer 变种 EVA-02,结合级联 Mask R-CNN 掩码头部。通过在 AVA 实例分割挑战数据集上进行微调,我们在测试集上实现了 52.68%的有希望的平均精度(mAP)。我们的结果证明了 ViT-based 架构在增强视觉能力和满足残障人士的独特需求方面的有效性。
Jul, 2023
本文介绍了一种高效的视觉 - 语言基础模型 EVE,该模型通过一个统一的预训练任务,在共享的 Transformer 网络中编码了视觉和语言,并利用专注于模态性的稀疏的 Mixture-of-Experts 模块来捕捉模态特定信息。通过对图像 - 文本对进行遮蔽信号建模,EVE 实现了图像像素和文本标记的信号重构,从而达到快速训练和更好的下游性能。
Aug, 2023
通过研究表明,CLIPA 可以通过反比例尺度律以更低的计算成本实现高性能的训练,可以在 finetuning 阶段进一步减少计算需求,从而实现零样本 Imagenet 准确率的提高。
Jun, 2023
在这项研究中,我们引入了 MobileCLIP 这个新的高效图像 - 文本模型系列,通过一种名为多模态增强训练的新颖且高效的训练方法,利用图像字幕模型和一组强大的 CLIP 编码器中的知识转移,将额外的知识存储在增强数据集中而避免了训练时计算开销,从而实现了零样本分类和检索任务的新的最佳延迟 - 准确性权衡。
Nov, 2023
EVA 是一种针对复杂动作的以人为中心的视频编辑框架,利用空间 - 时间布局引导的注意机制和精确的注意权重分布来同时编辑前景和背景,以及实现多属性和跨帧扩散特征的内在正负对应,达到精确的文字到属性操控和身份映射,从而取得实际场景下的最先进结果。
Mar, 2024
本文研究大规模预训练对于中文场景下开放域对话系统的影响,提出 EVA2.0 模型,并通过自动和人工评估证明该模型在公开数据集上表现更优,同时讨论了该工作的局限性和未来方向。
Mar, 2022
本论文提出了 RECO 模型,该模型通过外部记忆检索获取精细化知识,应用于现有视觉文本模型中,并在 Stanford Cars、CUB-2011 和 OVEN benchmark 等多项任务中取得了显著性能提升。
Jun, 2023