开放领域视觉实体识别：朝着识别数百万维基百科实体迈进

Feb, 2023

开放领域视觉实体识别：朝着识别数百万维基百科实体迈进

Open-domain Visual Entity Recognition: Towards Recognizing Millions of Wikipedia Entities

Hexiang Hu, Yi Luan, Yang Chen, Urvashi Khandelwal, Mandar Joshi...

TL;DR本文正式提出了开放域视觉实体识别（OVEN）这一任务，为评估预训练模型的普适性，构建了一个最大标签数量的通用视觉识别基准数据集。该数据集将 14 个现有的数据集标签全部调整为维基百科实体，其中包含了六百万个可能的实体，我们在此基础上测试了一系列领先的预训练模型，并发现不同的模型各有千秋。

Abstract

Large-scale multi-modal pre-training models such as clip and PaLI exhibit strong generalization on various visual domains and tasks. However, existing image classification benchmarks often evaluate recognition on

pre-training models visual recognition oven wikipedia entities clip

发现论文，激发创造

一种面向维基百科规模的视觉实体识别的生成方法

本文旨在探讨网络规模的视觉实体识别，介绍了一个名为 GER 的新型实体识别框架，通过学习自动解码一个语义和区别性的 “编码” 来识别目标实体，并证明其在应对网络规模识别复杂性方面具有优势。

Mar, 2024

Video OWL-ViT：视频中的时间一致性开放世界定位

基于 OWL-ViT 模型，我们通过添加一个 Transformer 解码器来成功将开放世界模型应用于视频以实现开放世界定位，从而实现了更好的时间一致性和更强的开放世界能力。

Aug, 2023

预训练视觉语言模型实体知识的表格和图像生成

本文提出了一个基于表格和图像生成的任务来验证自然语言中获取的实体知识如何在视觉和语言模型中得以保留，其包括两部分，一是生成包含有关实体及相关图像的表格，二是基于实体及其知识表生成相关图像。我们使用英文维基百科文章的 170,000 个信息框创建了维基百科表格和图像生成 (WikiTIG) 数据集并使用 OFA 模型对任务进行了评估，实验结果表明，OFA 在预训练过程中会忘记其中一部分实体知识。

Jun, 2023

重新思考视觉问答中的评估实践：针对分布外泛化的案例研究

研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题，而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同设置下 (如分类和开放性文本生成) 两种预训练的 V&L 模型性能的全面评估，证明生成模型在大多数情况下对数据分布变化不太敏感，并在测试基准中表现更好。另外，我们发现多模态预训练可以提高大多数设置下的 OOD 性能。最后，本文重新审视了自动 VQA 评估度量的假设，并从经验上证明它们的严格性会反复惩罚模型的正确响应。

May, 2022

从自然语言监督中学习开放词汇语义分割模型

本文提出一种基于 Transformer 的模型用于开放词汇语义分割（Open-Vocabulary Semantic Segmentation, OVS），该模型通过使用网络爬虫图像 - 文本对进行预训练，并提出了两种代理任务和数据集以提高训练效率和分割结果。在三个基准数据集上实现了优异的零 - shot 迁移效果。

Jan, 2023

开放词汇场景解析

本文提出了一种基于图像像素和词汇概念嵌入框架的解决方案，通过试验 ADE20K 数据集来验证其在识别各种场景和物体方面的开放词汇预测能力和解释性，该方案涉及物体识别、开放词汇解析、图像像素和词汇嵌入、语义关系等关键词。

Mar, 2017

PLA: 基于自然语言的开放词汇三维场景理解

通过对具有语义丰富标题的多视图图像进行记录，来设计分层三维标题对，使用对比学习，学习与图像相连的语言感知嵌入，并在开放词汇语义和实例分割方面表现出卓越的性能，具有鲁棒的可迁移性。

Nov, 2022

开放式识别中未知类别领域识别模型评估：一个提案

开放环境识别（OWR）是一个新兴领域，使得机器学习模型能够拒绝未知样本，并进行管理，逐步将新样本添加到基础知识。本研究提出了一个评估协议，用于估计模型在内域未知类和外域未知类之间分离能力，通过传统迁移学习、自动化机器学习（AutoML）和最近类均值（NCM）分类器与 First Integer Neighbor Clustering Hierarchy（FINCH）相结合的方法，通过对垃圾、食品、狗、植物和鸟类等五个不同领域进行实验，结果表明所有方法都可以作为一个良好的准确性基线，并且预训练模型的平衡准确率（BACCU）得分有可能在一个或多个感兴趣领域中表现出色，同时强调了预训练模型中的有效表示对于识别相同领域的未知类很重要，进一步拓展了开放环境识别在领域特定任务中的应用前景。

Dec, 2023

感知，对话，然后适应：用于开放世界视频识别的基础模型的多模态知识传递

我们提出了一种通用的知识转移流程，通过从基础模型中逐步开发和整合外部多模态知识，提升开放世界视频识别的性能，在三个具有挑战性的开放世界视频基准数据集上达到了最先进的性能。

Feb, 2024

开放词汇物体检测的扩展

本文提出了 OWL-ST 模型用于 scale up detection data in open-vocabulary object detection 问题中应用，大幅提升了模型性能，同时最终实现了 Web-scale training 的目的。

Jun, 2023