跨数据集分析测试平台
机器学习在视觉情感识别方面的应用具有很大的潜力,但目前的方法针对有限的视觉情感概念局限于小规模数据集上进行模型训练和测试。我们的分析确定了现有视觉情感基准测试中存在的一个长期被忽视的问题,即数据集偏见。基于我们的分析,我们提出了一个基于 Webly 监督方法的解决方案,通过利用大量的库存图像数据进行训练。我们发现,使用我们的大规模图像数据集学习的模型表现出了明显更好的泛化能力。此外,使用我们的方法学习得到的视觉表示在不同的图像和视频数据集上具有很大的潜力。
Aug, 2018
我们重新审视了 Torralba 和 Efros 在十年前建议的 “数据集分类” 实验,这个实验在如今大规模、多样化且希望具有更高的数据集的新时代以及更强大的神经网络架构中进行。令人惊讶的是,我们观察到现代神经网络在分类图像来自哪个数据集的问题上能够达到极高的准确率:例如,在 YFCC、CC 和 DataComp 数据集的三类分类问题的验证数据上,我们报告了 84.7% 的准确率。我们的进一步实验表明,这样的数据集分类器可以学习到具有泛化性和可转移性的语义特征,而这不能简单通过记忆来解释。我们希望我们的发现能够激发社区重新思考涉及数据集偏差和模型能力的问题。
Mar, 2024
本文介绍了 VizNet,它是一个包含了超过 3100 万个数据集的大规模语料库,从开放数据库和在线可视化画廊中编译而来。它提供了一个必要的公共基线,用于比较可视化的设计技术,并为自动化可视化分析开发基准模型和算法。我们展示了如何从实验结果中学习知觉有效性度量,并展示了它在测试数据集上的预测能力。
May, 2019
本研究基于收集自网络的大规模嘈杂数据对学习视觉识别模型进行了探究。我们构建了一个名为 WebVision 的新数据库,其中包含了超过 240 万张与 ILSVRC 2012 基准数据集的 1,000 个语义概念相关的查询生成的网络图像,并收集了元信息(例如标题,描述,标签等)。通过这个数据库,我们发现网络图像可以用于训练良好的深度 CNN 模型,且该模型的泛化能力甚至优于 ILSVRC 2012 数据集训练的模型。此外,我们也发现了一个数据集偏见问题,即在视觉领域自适应方面存在一些问题。这个新的 WebVision 数据库及其相关研究对于利用网络数据最小化监督学习最先进的视觉模型具有重要的价值。
Aug, 2017
针对自然语言与视觉任务融合的多个数据集和方法的持续爆炸性增长的问题研究,本篇综述将现有的行动识别方法按照它们如何概念化这个问题进行分类,并详细评述现有的数据集及其多样性、优缺点。 重点关注最近开发的数据集,它们将视觉信息与语言资源联系起来,并对图像中的动作进行细粒度的语法和语义分析。
Apr, 2017
我们研究了在视觉和语言模型训练中使用大型未筛选数据集的不公平表现,以及如何应对这个问题,研究发现社会偏见在图像生成、图像描述和图像文本嵌入等视觉语言任务中都是一个持续而普遍的问题。
Apr, 2023
机器视觉算法对图像的处理和决策至关重要,但是数据集中的错误可能会导致认为黑人是大猩猩或搜索结果中误代表某些族裔,本文追踪数据集中的错误及其影响,揭示了一个缺陷的数据集可能是类别有限、数据来源不全和分类不当的结果。
Nov, 2022
通过对多个数据集进行对比研究,本文提出了使用随机权重平均、模型融合和集成等技术来提高模型泛化性能,并揭示了如何将粗粒度标记数据与细粒度数据集相结合以改善病变分割的洞见。
May, 2024
本文通过研究不同表示下的现有去偏方法的表现,旨在验证在面临数据集偏差问题时使用 DeCAF 特征的潜力,并就数据集偏差问题的哪些方面是已经解决的,哪些方面是需要解决的进行分析。
May, 2015