本篇论文针对全球大部分语言缺乏可靠的自然语言推理(NLI)数据集这一问题,提出了中国的首个大规模 NLI 数据集,并采用语言学专家来对其进行注释。通过使用中文预训练模型,对数据集进行了基线测试,发现即使是表现最好的模型,其性能也远远落后于人类,因此这一具有挑战性的新资源有望帮助加速中文 NLU 的进展。该数据集是首个非英语语言的人采集的 MNLI 风格数据集。
Oct, 2020
本文介绍了 COCO-Text 数据集,该数据集基于 MS COCO 数据集,旨在推进自然图像的文本检测和识别。数据集中包含超过 173,000 个文本注释和超过 63,000 张图像,文本注释覆盖了文本的边界框、机器印刷文本和手写文本的分类、易读和难读文本的分类、文本的字体和可读文本的转录。本文还提供了数据集注释的准确性统计分析,并对三种最先进的光学字符识别方法在数据集上的表现进行了分析,结果表明文本检测和识别存在显著的不足,需要进一步研究。
Jan, 2016
介绍一个街景图中的大规模中文文本数据集,该数据集包含超过 30,000 张街景图中的大约 1 百万个中文字符,同时提供基准结果使用 AlexNet,OverFeat,Google Inception 和 ResNet 进行字符识别,使用 YOLOv2 进行字符检测。
Feb, 2018
本论文介绍了一种文本视觉背景数据集,用于改进现代图像描述系统,通过融合与场景相关的文本信息,提高图像描述的准确性及语义关联性。
Jan, 2023
通过多模态输入构建高质量视频数据集,使用检索模型选择最佳字幕注释,名为 Panda-70M,训练模型在视频字幕生成、视频与文本检索等任务上具有优异性能。
Feb, 2024
本文描述了 Microsoft COCO Caption 数据集和评估服务器,数据集包含超过一百五十万个关于 330,000 张图像的描述性标题,并提供了基于 BLEU, METEOR, ROUGE 和 CIDEr 多个流行度量标准的算法评估方法。
Apr, 2015
本研究扩展了 MS-COCO 数据集,提出了 Crisscrossed Captions (CxC),用于评估跨模态训练和评估,可用于研究跨模态学习对内模态任务的影响,并对现有内模态和多模态模型进行了基准测试。
Apr, 2020
该论文介绍了一种使用跨语言预训练进行零 - shot 学习的多模式语言和视觉问题解决方法,它可以用于构建跨语言图像检索模型和改进文本嵌入聚类,并在多语言环境下进行评估。
Nov, 2020
本论文探讨采用跨语言预训练的零样本方法来学习多模态表示,提出建立跨语言图像检索模型的简单实用方法,并引入了一种新的目标函数来测试多语言 MSCOCO2014 字幕测试数据集(XTD10)的零样本模型性能,证明跨语言模型可用于零样本的下游任务, 如多语言图像标记。
Sep, 2021
本文提出了 Crossmodal-3600 数据集,其中包含 3600 张图片,涵盖了 36 种语言中所使用的地区,并使用人工参考标题对其进行了注释。该数据集被应用于大规模多语言图片字幕模型的选择,并在使用 XM3600 作为自动度量的黄金参考时,展示出与人工评估更高的相关性结果。
May, 2022