基于视觉任务适应基准的表示学习的大规模研究
通过构建 Med-VTAB 基准测试,本研究探索了视觉任务适应在医学领域的效果,研究了不同的医学图像模态、参数调整、非医学 / 医学预训练权重、以及患者标识对医学图像适应的影响。此外,引入了 GMoE-Adapter 方法,通过混合专家适配器将医学和通用预训练权重相结合,在医学视觉任务适应中取得了最先进的结果。
Apr, 2024
本文提出了一种单模态视觉表征学习的方法,主要用于电子商务中的产品推荐、搜索和广告应用,包括预训练骨干架构、卷积神经网络和视觉变换器家族等。通过离线和在线的方式,我们对实验方法进行了评估和分析,并提出了新的文本到图像生成离线评估方法来评估视觉相似度的推荐系统,在 Etsy 的生产环境中进行了机器学习系统的应用。
May, 2023
该篇论文提出了一种从未加工过的视频中学习图像表示的方法,该方法将来自现成物体检测器的监督损失和自我监督损失相结合,取得了在 19 个迁移学习任务中有竞争力的结果,其中包括 18/19 的少样本学习任务和 8/8 的数据集泛化任务。
Oct, 2020
该论文提出了一个新的基准来测试视觉表征,该基准直接测试大脑中多个视觉皮层区域中的神经表征,并测试了产生特征空间的任何计算机视觉算法。结论是一种针对中等图像难度的学习算法能够达到与大脑皮层区域 IT 相当的性能水平,并且优于更简单的区域 V4,在较高难度水平时甚至超过了 IT。
Jan, 2013
音频 - 视觉表示学习,一种开发具有类似于人类感知的系统的方法,利用声音和视觉信息之间的相关性。然而,目前的模型往往专注于有限的任务集,并且对学习表示的泛化能力尚不清楚。因此,我们提出了 AV-SUPERB 基准,它在涵盖语音和音频处理中的 5 个音频 - 视觉任务的 7 个数据集上,能够对单模音频 / 视觉和双模融合表示进行通用评估。我们评估了 5 个最近的自监督模型,并表明这些模型都不能泛化到所有任务,强调了未来需要改进通用模型性能的研究的必要性。此外,我们表明通过中间任务微调和使用 AudioSet 进行音频事件分类可以改进表示。我们发布了我们的基准测试,提供了评估代码和模型提交平台,以鼓励进一步进行音频 - 视觉学习的研究。
Sep, 2023
ViLBERT 是一种用于学习图像内容和自然语言的任务不可知联合表示的模型,并通过在多模态两个流中处理图像和文本输入,通过相互关注变压器层实现交互。我们通过在大型自动收集的概念字幕数据集上执行两个代理任务来预训练我们的模型,然后通过仅对基础体系结构进行轻微添加,将其转移到多个已建立的视觉语言任务 —— 视觉问答、视觉常识推理、指称表达和基于字幕的图像检索,我们观察到与现有特定任务模型相比,在所有四个任务中都实现了显着的改进,成为学习视觉与语言之间接地只作为任务培训的一部分,而不是对待视觉接地作为可预训练和可转移能力的代表性工作。
Aug, 2019
本文探讨了在计算机视觉问题中使用预训练模型和迁移学习进行优化的方法,提出了一种名为 Big Transfer(BiT)的简单而强大的预训练方法,该方法结合了几个精心选择的组件,并使用简单的启发式方法进行转移,使得在 20 多个数据集上实现了良好表现。
Dec, 2019
利用自我监督的视觉变换模型及其新出的语义能力,通过聚类外观特征来形成稳定的关键点,从而改善模仿学习策略的泛化能力。本论文介绍了 BC-ViT,一种利用富含 DINO 预训练视觉变换器(ViT)补丁级嵌入的模仿学习算法,以通过示范获取更好的泛化效果。通过对一个多样化的物体操作任务数据集进行模仿学习的评估,证明了这种表示方式能够实现广义行为。为了促进对于模仿学习中泛化问题的进一步研究,我们提供了我们的方法、数据和评估方法。
Nov, 2023
研究表明,视觉语言模型是目前广泛使用的预训练模型,但在适应少量样本方面,深度学习模型存在不足。本文研究了面向生成视觉语言模型的现有适应方法,提出了自标记的重要性,并提出一种任务适应流水线,可显著提高各种视觉语言任务(如图像分类、视觉问答等)的性能。
May, 2023
本文研究使用自监督任务和少量数据进行训练的 Visual Transformer 网络的表现,并发现新的自监督任务可以在空间关系方面鼓励 VT 网络,从而显著提高其小数据集准确性。
Jun, 2021