ChessVision -- 逻辑连贯多标签分类的数据集

Nov, 2023

ChessVision -- 逻辑连贯多标签分类的数据集

ChessVision -- A Dataset for Logically Coherent Multi-label Classification

Soumadeep Saha, Utpal Garain

TL;DR我们介绍了一个数据集，命名为 ChessVision 数据集，其中包含 200,000 + 张带有注释的象棋游戏进行中的图像，需要从图像中重新创建游戏状态，并附带一套约束以确保产生 “合理” 的游戏状态，同时还提出了用于衡量逻辑一致性的附加指标。通过对该任务进行分析，我们发现现有的视觉模型在标准指标上表现可观，但产生了大量不连贯的结果，这表明此数据集对未来研究提出了重大挑战。

Abstract

Starting with early successes in computer vision tasks, deep learning based techniques have since overtaken state of the art approaches in a multitude of domains. However, it has been demonstrated time and again that these techniques fail to capture →

deep learning semantic context logical constraints chessvision dataset vision models

发现论文，激发创造

V-LoL: 视觉逻辑学习诊断数据集

研究提出 V-LoL 数据集，将视觉和逻辑挑战相结合，探索 AI 系统在视觉逻辑学习方面的能力，并在传统符号 AI、神经网络 AI 和神经符号 AI 领域进行多种技术的评估。

Jun, 2023

VISION 数据集：基于视觉的工业检测基准测试

通过引入 VISION 数据集，我们希望为实现基于视觉的工业检测的进一步提高带来新的挑战和方法。

Jun, 2023

使用 MATH-Vision 数据库测量多模态数学推理

我们通过提供一组全面多样的问题来评估大规模多模态模型的数学推理能力，并发现目前的模型在 MATH-V 数据集上与人类表现存在明显差距，强调了对大规模多模态模型的进一步发展的必要性，此外，我们的详细分类还允许对其错误进行全面分析，为未来的研究和开发提供有价值的见解。

Feb, 2024

一种具备工作记忆的视觉推理数据集和架构

本文介绍了一个基于 cognitive psychology 和 neuroscience 的撷图，和相应的 deep learning 架构，用来解决视觉和逻辑推理以及记忆方面的问题。架构表现不错且易扩展，是目前解决此问题的有力之选。

Mar, 2018

WebVision 挑战赛：基于网络数据的视觉学习与理解

2017 年 WebVision 挑战赛，旨在提供一组无需人工标记的互联网图像数据集和公开竞赛。数据集中包含超过 240 万张使用 ILSVRC 2012 语义概念生成的查询的互联网图像，用于在 WebVision 测试集上进行图像分类和在 PASCAL VOC 2012 数据集上进行迁移学习的任务。本文描述了数据收集与注释的详细信息、数据集的特点以及评估指标。

May, 2017

VisionKG：通过知识图谱释放视觉数据集的力量

我们提出了一种基于知识图谱和语义网络技术的 Vision Knowledge Graph（VisionKG），用于链接、组织和管理具有异构特征的视觉数据集，提供简单访问和查询不同格式和分类法的最新视觉数据集，增强语义丰富性并通过 SPARQL 提供多种数据检索与探索服务，集成了 30 个数据集和四个流行 CV 任务，展示了在 CV 流程中的多种应用场景。

Sep, 2023

Visual Genome：使用众包密集图像注释连接语言和视觉

该论文介绍了 Visual Genome 数据集，它包含了约 100K 的图像和图像描述、对象、属性、关系和问题答案的密集注释，旨在解决计算机在图像描述、问答等认知任务中的性能瓶颈问题。

Feb, 2016

WebVision 数据库：从网络数据中进行视觉学习和理解

本研究基于收集自网络的大规模嘈杂数据对学习视觉识别模型进行了探究。我们构建了一个名为 WebVision 的新数据库，其中包含了超过 240 万张与 ILSVRC 2012 基准数据集的 1,000 个语义概念相关的查询生成的网络图像，并收集了元信息（例如标题，描述，标签等）。通过这个数据库，我们发现网络图像可以用于训练良好的深度 CNN 模型，且该模型的泛化能力甚至优于 ILSVRC 2012 数据集训练的模型。此外，我们也发现了一个数据集偏见问题，即在视觉领域自适应方面存在一些问题。这个新的 WebVision 数据库及其相关研究对于利用网络数据最小化监督学习最先进的视觉模型具有重要的价值。

Aug, 2017

HL 数据集：将高层语言概念与视觉相结合

本文介绍一个新的高级数据集（High-Level Dataset），可以拓展经典 COOC 数据集，使得机器学习模型更好地理解抽象概念，并进一步提升模型的多模态融合能力。

Feb, 2023

RAVEN: 用于关系和类比视觉推理的数据集

本研究提出了一个新的数据集，旨在通过在分层表示中将视觉与结构、关系和类比推理相匹配，提高机器智能水平，并通过加入神经模块组合视觉理解和结构推理，持续改进所有模型的性能，实现现代视觉与机器推理的结合。

Mar, 2019