神经自然主义者:生成细粒度图像比较
本文研究了纹理的视觉属性及对不同模型的影响,发现现有的生成和判别模型不能很好地捕捉纹理的组成属性。我们以证据支持了此观点,并提供了可解释性的模型来生成基于语言的解释,以加深对纹理分类的理解。我们通过在Caltech-UCSD鸟类数据集上进行精细分类,证明了该数据集上所学习到的纹理属性相比专家设计的属性能够实现显著改进。
Aug, 2020
本研究关注零样本学习的视觉问题,并提出了使用基于文本描述的分类器,该分类器关注从图像描述中提取最相关的信息并将视觉特征与文本进行匹配,通过基于关注机制的简单模型,利用物种之间的相似度和文本的可视摘要来提高零样本视觉对象识别的效果。
Oct, 2020
本文介绍了一种Learning-to-Compare模型,该模型能够理解两个图像之间的语义结构并学习描述每个图像,从而有效地进行图像比较和生成描述。使用该模型可以在Birds-to-Words数据集上实现比基准模型更好的性能,且同时在自动评估和人类评估中表现良好。
Feb, 2021
本研究提供两个新的自然世界分类数据集iNat2021和NeWT,探索了fine-grained类别的大规模表示和迁移学习的问题。研究表明,在各种任务中,基于ImageNet和iNat2021有监督方法学习到的特征优于SimCLR等自我监督方法。
Mar, 2021
将鸟类分类器与栖息地信息集成,通过卷积神经网络(CNNs)、视觉注意力机制(ViTs)和多模态CLIP模型对鸟类数据集进行训练,通过整合栖息地特征改进分类器准确度。
Dec, 2023
这篇研究论文提供了一种标准化方法和一种通用度量工具,用于评估和比较不同文本和领域中的概念多样性,从而为人工智能自然语言处理领域做出了贡献,并为语义研究提供了参考。
Dec, 2023
理解视觉场景的语义是计算机视觉中的基本挑战之一。我们提出了StableSemantics数据集,其中包括22.4万个人工筛选的提示、处理过的自然语言字幕、超过200万个合成图像和1000万个对应于单个名词短语的注意力地图。我们研究了生成图像的语义分布,检查了图像中对象的分布,并在我们的数据上对字幕和开放词汇分割方法进行了基准测试。我们期望我们提出的数据集能促进视觉语义理解的进展,为开发更复杂和有效的视觉模型奠定基础。
Jun, 2024
最近大型视觉-语言模型(LVLMs)在诸多图像理解和推理任务上表现出令人印象深刻的能力。然而,细粒度对象分类任务(例如,区分动物物种)的研究尚不足够,在下游任务中的重要性不够凸显。我们通过创建一个名为FOCI(Fine-grained Object Classification)的难度较高的多项选择基准来弥补这一评估空白,该基准通过从现有的对象分类数据集中进行采样获得,并且通过CLIP模型挖掘负面标签以保持分类难度。FOCI基准补充了五个流行的分类数据集,以及从ImageNet-21k中选择的四个领域特定的子集。我们对12个公开的LVLMs模型在FOCI基准上进行了评估,并展示了它对于已有的图像理解和推理基准来说是一项补充技能。关键是,CLIP模型的性能明显优于LVLMs模型。由于LVLMs的图像编码器来自这些CLIP模型,这暗示编码器与LLM之间在细粒度对象区分方面存在不足的对齐,需要使用更多细粒度注释的(预)训练数据。我们在https://github.com/gregor-ge/FOCI-Benchmark上发布了我们的代码。
Jun, 2024
本研究解决了利用预训练的视觉-语言模型(VLMs)帮助科学家回答与生物相关的问题的有效性缺口。通过创建一个包含30,000幅图像和469,000个问答对的独特数据集VLM4Bio,评估了12种最先进的VLMs,并探讨了提示技术和推理幻觉对模型性能的影响。研究表明,当前的SOTA VLMs在生物图像分析领域具有显著的应用潜力。
Aug, 2024