基于视觉任务适应基准的表示学习的大规模研究

Oct, 2019

基于视觉任务适应基准的表示学习的大规模研究

A Large-scale Study of Representation Learning with the Visual Task Adaptation Benchmark

Xiaohua Zhai, Joan Puigcerver, Alexander Kolesnikov, Pierre Ruyssen, Carlos Riquelme...

TL;DR通过自我监督、生成模型等方法训练的视觉特征表示可以非常好的通用于各种不同的视觉任务，并且对于一些任务可以取代需要大量标注数据的监督学习方法

Abstract

representation learning promises to unlock deep learning for the long tail of vision tasks without expensive labelled datasets. Yet, the absence of a unified evaluation for general visual representations hinders progress. Popular protocols are often too constrained (linear classificati

representation learning visual task adaptation benchmark unseen tasks generative models self-supervision

发现论文，激发创造

一个大规模的医疗视觉任务适应基准

通过构建 Med-VTAB 基准测试，本研究探索了视觉任务适应在医学领域的效果，研究了不同的医学图像模态、参数调整、非医学 / 医学预训练权重、以及患者标识对医学图像适应的影响。此外，引入了 GMoE-Adapter 方法，通过混合专家适配器将医学和通用预训练权重相结合，在医学视觉任务适应中取得了最先进的结果。

Apr, 2024

高效大规模视觉表征学习

本文提出了一种单模态视觉表征学习的方法，主要用于电子商务中的产品推荐、搜索和广告应用，包括预训练骨干架构、卷积神经网络和视觉变换器家族等。通过离线和在线的方式，我们对实验方法进行了评估和分析，并提出了新的文本到图像生成离线评估方法来评估视觉相似度的推荐系统，在 Etsy 的生产环境中进行了机器学习系统的应用。

May, 2023

野外视频中的表示学习：以对象为中心的方法

该篇论文提出了一种从未加工过的视频中学习图像表示的方法，该方法将来自现成物体检测器的监督损失和自我监督损失相结合，取得了在 19 个迁移学习任务中有竞争力的结果，其中包括 18/19 的少样本学习任务和 8/8 的数据集泛化任务。

Oct, 2020

神经表示基准及其在脑和机器上的评估

该论文提出了一个新的基准来测试视觉表征，该基准直接测试大脑中多个视觉皮层区域中的神经表征，并测试了产生特征空间的任何计算机视觉算法。结论是一种针对中等图像难度的学习算法能够达到与大脑皮层区域 IT 相当的性能水平，并且优于更简单的区域 V4，在较高难度水平时甚至超过了 IT。

Jan, 2013

AV-SUPERB: 音频 - 视觉表示模型的多任务评估基准

音频 - 视觉表示学习，一种开发具有类似于人类感知的系统的方法，利用声音和视觉信息之间的相关性。然而，目前的模型往往专注于有限的任务集，并且对学习表示的泛化能力尚不清楚。因此，我们提出了 AV-SUPERB 基准，它在涵盖语音和音频处理中的 5 个音频 - 视觉任务的 7 个数据集上，能够对单模音频 / 视觉和双模融合表示进行通用评估。我们评估了 5 个最近的自监督模型，并表明这些模型都不能泛化到所有任务，强调了未来需要改进通用模型性能的研究的必要性。此外，我们表明通过中间任务微调和使用 AudioSet 进行音频事件分类可以改进表示。我们发布了我们的基准测试，提供了评估代码和模型提交平台，以鼓励进一步进行音频 - 视觉学习的研究。

Sep, 2023

ViLBERT：预训练无任务束缚的视觉语言表示，用于视觉与语言任务

ViLBERT 是一种用于学习图像内容和自然语言的任务不可知联合表示的模型，并通过在多模态两个流中处理图像和文本输入，通过相互关注变压器层实现交互。我们通过在大型自动收集的概念字幕数据集上执行两个代理任务来预训练我们的模型，然后通过仅对基础体系结构进行轻微添加，将其转移到多个已建立的视觉语言任务 —— 视觉问答、视觉常识推理、指称表达和基于字幕的图像检索，我们观察到与现有特定任务模型相比，在所有四个任务中都实现了显着的改进，成为学习视觉与语言之间接地只作为任务培训的一部分，而不是对待视觉接地作为可预训练和可转移能力的代表性工作。

Aug, 2019

大规模迁移（BiT）：通用视觉表征学习

本文探讨了在计算机视觉问题中使用预训练模型和迁移学习进行优化的方法，提出了一种名为 Big Transfer（BiT）的简单而强大的预训练方法，该方法结合了几个精心选择的组件，并使用简单的启发式方法进行转移，使得在 20 多个数据集上实现了良好表现。

Dec, 2019

基于预训练表示的可推广模仿学习

利用自我监督的视觉变换模型及其新出的语义能力，通过聚类外观特征来形成稳定的关键点，从而改善模仿学习策略的泛化能力。本论文介绍了 BC-ViT，一种利用富含 DINO 预训练视觉变换器（ViT）补丁级嵌入的模仿学习算法，以通过示范获取更好的泛化效果。通过对一个多样化的物体操作任务数据集进行模仿学习的评估，证明了这种表示方式能够实现广义行为。为了促进对于模仿学习中泛化问题的进一步研究，我们提供了我们的方法、数据和评估方法。

Nov, 2023

充分利用现有资源：在低数据条件下调整预训练的视觉语言模型

研究表明，视觉语言模型是目前广泛使用的预训练模型，但在适应少量样本方面，深度学习模型存在不足。本文研究了面向生成视觉语言模型的现有适应方法，提出了自标记的重要性，并提出一种任务适应流水线，可显著提高各种视觉语言任务（如图像分类、视觉问答等）的性能。

May, 2023

使用小数据集高效训练视觉 Transformer

本文研究使用自监督任务和少量数据进行训练的 Visual Transformer 网络的表现，并发现新的自监督任务可以在空间关系方面鼓励 VT 网络，从而显著提高其小数据集准确性。

Jun, 2021