Entity6K：用于真实世界实体识别的大型开放域评估数据集

Mar, 2024

Entity6K：用于真实世界实体识别的大型开放域评估数据集

Entity6K: A Large Open-Domain Evaluation Dataset for Real-World Entity Recognition

Jielin Qiu, William Han, Winfred Wang, Zhengyuan Yang, Linjie Li...

TL;DR开放域现实世界实体识别的评估数据集 Entity6K 对于评估模型的实体识别能力具有重要的作用。

Abstract

open-domain real-world entity recognition is essential yet challenging, involving identifying various entities in diverse environments. The lack of a suitable →

open-domain real-world entity recognition evaluation dataset entity6k benchmarking entity recognition

发现论文，激发创造

RealKIE: 为企业关键信息提取设计的五个新数据集

RealKIE 是一个具有五个具有挑战性数据集的基准测试，旨在推进关键信息提取方法，重点关注企业应用。这些数据集包括一系列不同类型的文档，包括 SEC S1 文件，美国保密协议，英国慈善报告，FCC 发票和资源合同。除了介绍这些数据集外，我们还提供了详细的注释过程、文档处理技术和基准建模方法的描述，以促进开发能处理实际挑战并支持研究产业特定问题的信息提取技术的进一步研究。

Mar, 2024

Retail-786k：大规模可视化实体匹配数据集

通过大规模的基于商品广告传单的手动注释高清产品图像数据集，该研究提出了一种名为 “视觉实体匹配” 的学习问题，需要使用新颖的方法将例子中的视觉等价类转移到新的数据上，以解决当前普通图像分类和检索算法无法解决的问题，并旨在为此类算法提供基准。

Sep, 2023

ENTIRe-ID：一份广泛而多元的人员再辨识数据集

这篇论文介绍了 ENTIRe-ID 数据集，该数据集包含了超过 4.45 百万张图像，来自 37 个不同的相机，涵盖了各种环境。该数据集独特地设计用于解决领域变异和模型泛化的挑战，是人像重新识别现有数据集的不足之处。ENTIRe-ID 数据集具有广泛的真实世界场景，包括各种光照条件、视角和不同的人类活动，确保了逼真且稳健的 ReID 模型训练平台。该数据集公开可用于此 https URL。

May, 2024

MS-Celeb-1M: 大规模人脸识别的数据集和基准

本文提出了一个基于知识库的人脸识别基准任务，建立相关的数据集，通过该任务可以识别 100 万名人的面部图像，并将其链接到相应的实体密钥。我们提供了具体的度量集，评估协议以及训练数据，并报告了有前途的基线结果，将有助于图像字幕和新闻视频分析等实际应用。

Jul, 2016

通往全能图像嵌入：一个针对通用图像表示的大规模数据集与挑战

该研究论文通过构建一个新的大规模公共基准数据集，评估了通用图像嵌入的性能，并通过实验证明，与单独训练每个领域的模型相比，现有方法和简单的扩展方法的性能较差。

Sep, 2023

跨数据集和语言学习开放式命名实体识别的通用实体分类

通过构建一个通用的、包含 400 多种实体类型的数据集 B2NERD，并使用减少冗余的数据修剪策略，在开放领域命名实体识别方面，提高了大型语言模型的泛化性能，优于 GPT-4 和以往的方法。

Jun, 2024

Flickr30k 实体：收集区域到短语的对应关系以构建更丰富的图像到句子模型

本文介绍了 Flickr30k 实体数据集，其中增加了 244k 个共指链，将相同实体的提及于同一图像中的不同标题链接起来，并与 276k 个手动标注的边界框关联。该注释对于自动图像描述和基于语言的图像理解的持续进展至关重要。

May, 2015

EuroCity 人员数据集：一种新的目标检测基准

该研究介绍了 EuroCity Persons 数据集，该数据集提供了大量的准确和详细的交通场景中的行人、骑车人和其他骑车人的标注，该数据集比以前用于基准测试的人员数据集大近一个数量级，而且还包含大量的人员方向标注，研究优化了四种先进的深度学习方法来服务于新的对象检测基准测试。

May, 2018

Few-NERD：少样本命名实体识别数据集

本文提出了 Few-NERD 数据集，并利用其来制定基准任务，从而全面评估模型的泛化能力，结果表明 Few-NERD 具有挑战性并需要进一步研究。

May, 2021

CLUENER2020: 面向中文的细粒度命名实体识别数据集及基准

介绍了 CLUE 组织发布的 NER 数据集 CLUENER2020 ，它是一个细粒度的、为中文命名实体识别而设计的数据集，包含 10 类别，并且更具挑战性。针对该数据集，实现了几种当前最先进的序列标记任务方法，报告了人类表现及其分析，并发布了该数据集、基线和排行榜。

Jan, 2020