Entity6K:用于真实世界实体识别的大型开放域评估数据集
RealKIE 是一个具有五个具有挑战性数据集的基准测试,旨在推进关键信息提取方法,重点关注企业应用。这些数据集包括一系列不同类型的文档,包括 SEC S1 文件,美国保密协议,英国慈善报告,FCC 发票和资源合同。除了介绍这些数据集外,我们还提供了详细的注释过程、文档处理技术和基准建模方法的描述,以促进开发能处理实际挑战并支持研究产业特定问题的信息提取技术的进一步研究。
Mar, 2024
通过大规模的基于商品广告传单的手动注释高清产品图像数据集,该研究提出了一种名为 “视觉实体匹配” 的学习问题,需要使用新颖的方法将例子中的视觉等价类转移到新的数据上,以解决当前普通图像分类和检索算法无法解决的问题,并旨在为此类算法提供基准。
Sep, 2023
这篇论文介绍了 ENTIRe-ID 数据集,该数据集包含了超过 4.45 百万张图像,来自 37 个不同的相机,涵盖了各种环境。该数据集独特地设计用于解决领域变异和模型泛化的挑战,是人像重新识别现有数据集的不足之处。ENTIRe-ID 数据集具有广泛的真实世界场景,包括各种光照条件、视角和不同的人类活动,确保了逼真且稳健的 ReID 模型训练平台。该数据集公开可用于此 https URL。
May, 2024
本文提出了一个基于知识库的人脸识别基准任务,建立相关的数据集,通过该任务可以识别 100 万名人的面部图像,并将其链接到相应的实体密钥。我们提供了具体的度量集,评估协议以及训练数据,并报告了有前途的基线结果,将有助于图像字幕和新闻视频分析等实际应用。
Jul, 2016
该研究论文通过构建一个新的大规模公共基准数据集,评估了通用图像嵌入的性能,并通过实验证明,与单独训练每个领域的模型相比,现有方法和简单的扩展方法的性能较差。
Sep, 2023
通过构建一个通用的、包含 400 多种实体类型的数据集 B2NERD,并使用减少冗余的数据修剪策略,在开放领域命名实体识别方面,提高了大型语言模型的泛化性能,优于 GPT-4 和以往的方法。
Jun, 2024
本文介绍了 Flickr30k 实体数据集,其中增加了 244k 个共指链,将相同实体的提及于同一图像中的不同标题链接起来,并与 276k 个手动标注的边界框关联。该注释对于自动图像描述和基于语言的图像理解的持续进展至关重要。
May, 2015
该研究介绍了 EuroCity Persons 数据集,该数据集提供了大量的准确和详细的交通场景中的行人、骑车人和其他骑车人的标注,该数据集比以前用于基准测试的人员数据集大近一个数量级,而且还包含大量的人员方向标注,研究优化了四种先进的深度学习方法来服务于新的对象检测基准测试。
May, 2018
本文提出了 Few-NERD 数据集,并利用其来制定基准任务,从而全面评估模型的泛化能力,结果表明 Few-NERD 具有挑战性并需要进一步研究。
May, 2021
介绍了 CLUE 组织发布的 NER 数据集 CLUENER2020 ,它是一个细粒度的、为中文命名实体识别而设计的数据集,包含 10 类别,并且更具挑战性。针对该数据集,实现了几种当前最先进的序列标记任务方法,报告了人类表现及其分析,并发布了该数据集、基线和排行榜。
Jan, 2020