神经自然主义者：生成细粒度图像比较

Sep, 2019

神经自然主义者：生成细粒度图像比较

Neural Naturalist: Generating Fine-Grained Image Comparisons

Maxwell Forbes, Christine Kaeser-Chen, Piyush Sharma, Serge Belongie

TL;DR介绍了一个名为Birds-to-Words的新数据集，包含用自然语言描述鸟类的语句，使用了一种新的分层抽样方法，提出了一个名为神经博物学家（Neural Naturalist）的模型来生成，评估结果表明，神经模型具有用自然语言解释视觉嵌入空间中差异的潜力，并为机器学习提供了一条资助公民科学家保护生物多样性的具体路径。

Abstract

We introduce the new birds-to-words dataset of 41k sentences describing fine-grained differences between photographs of birds. The languag

发现论文，激发创造

使用自然语言描述纹理

本文研究了纹理的视觉属性及对不同模型的影响，发现现有的生成和判别模型不能很好地捕捉纹理的组成属性。我们以证据支持了此观点，并提供了可解释性的模型来生成基于语言的解释，以加深对纹理分类的理解。我们通过在Caltech-UCSD鸟类数据集上进行精细分类，证明了该数据集上所学习到的纹理属性相比专家设计的属性能够实现显著改进。

Aug, 2020

ZEST: 从文本描述中使用文本相似度和视觉摘要实现零样本学习

本研究关注零样本学习的视觉问题，并提出了使用基于文本描述的分类器，该分类器关注从图像描述中提取最相关的信息并将视觉特征与文本进行匹配，通过基于关注机制的简单模型，利用物种之间的相似度和文本的可视摘要来提高零样本视觉对象识别的效果。

Oct, 2020

L2C: 描述视觉差异需要对个体进行语义理解

本文介绍了一种Learning-to-Compare模型，该模型能够理解两个图像之间的语义结构并学习描述每个图像，从而有效地进行图像比较和生成描述。使用该模型可以在Birds-to-Words数据集上实现比基准模型更好的性能，且同时在自动评估和人类评估中表现良好。

Feb, 2021

自然世界图像集的表示学习基准测试

本研究提供两个新的自然世界分类数据集iNat2021和NeWT，探索了fine-grained类别的大规模表示和迁移学习的问题。研究表明，在各种任务中，基于ImageNet和iNat2021有监督方法学习到的特征优于SimCLR等自我监督方法。

Mar, 2021

零射击物种识别中的科学名称提示

使用视觉-语言模型(CLIP)进行零样本识别的研究，通过将科学名称翻译为常用的英文名称，作为提示语可以在精细物种识别数据集上取得2到5倍的准确率提高。

Oct, 2023

利用栖息地信息进行细粒度鸟类识别

将鸟类分类器与栖息地信息集成，通过卷积神经网络（CNNs）、视觉注意力机制（ViTs）和多模态CLIP模型对鸟类数据集进行训练，通过整合栖息地特征改进分类器准确度。

Dec, 2023

一种用于文本概念多样性的新度量方法

这篇研究论文提供了一种标准化方法和一种通用度量工具，用于评估和比较不同文本和领域中的概念多样性，从而为人工智能自然语言处理领域做出了贡献，并为语义研究提供了参考。

Dec, 2023

稳定语义：自然图像中语义表示的合成语言-视觉数据集

理解视觉场景的语义是计算机视觉中的基本挑战之一。我们提出了StableSemantics数据集，其中包括22.4万个人工筛选的提示、处理过的自然语言字幕、超过200万个合成图像和1000万个对应于单个名词短语的注意力地图。我们研究了生成图像的语义分布，检查了图像中对象的分布，并在我们的数据上对字幕和开放词汇分割方法进行了基准测试。我们期望我们提出的数据集能促进视觉语义理解的进展，为开发更复杂和有效的视觉模型奠定基础。

Jun, 2024

非洲还是欧洲的燕子？针对细粒度物体分类的大型视觉语言模型基准测试

最近大型视觉-语言模型（LVLMs）在诸多图像理解和推理任务上表现出令人印象深刻的能力。然而，细粒度对象分类任务（例如，区分动物物种）的研究尚不足够，在下游任务中的重要性不够凸显。我们通过创建一个名为FOCI（Fine-grained Object Classification）的难度较高的多项选择基准来弥补这一评估空白，该基准通过从现有的对象分类数据集中进行采样获得，并且通过CLIP模型挖掘负面标签以保持分类难度。FOCI基准补充了五个流行的分类数据集，以及从ImageNet-21k中选择的四个领域特定的子集。我们对12个公开的LVLMs模型在FOCI基准上进行了评估，并展示了它对于已有的图像理解和推理基准来说是一项补充技能。关键是，CLIP模型的性能明显优于LVLMs模型。由于LVLMs的图像编码器来自这些CLIP模型，这暗示编码器与LLM之间在细粒度对象区分方面存在不足的对齐，需要使用更多细粒度注释的（预）训练数据。我们在https://github.com/gregor-ge/FOCI-Benchmark上发布了我们的代码。

Jun, 2024

VLM4Bio：评估预训练视觉-语言模型在生物图像特征发现中的基准数据集

本研究解决了利用预训练的视觉-语言模型（VLMs）帮助科学家回答与生物相关的问题的有效性缺口。通过创建一个包含30,000幅图像和469,000个问答对的独特数据集VLM4Bio，评估了12种最先进的VLMs，并探讨了提示技术和推理幻觉对模型性能的影响。研究表明，当前的SOTA VLMs在生物图像分析领域具有显著的应用潜力。

Aug, 2024