跨语言图像标签、字幕和检索的 COCO-CN

May, 2018

跨语言图像标签、字幕和检索的 COCO-CN

COCO-CN for Cross-Lingual Image Tagging, Captioning and Retrieval

Xirong Li, Chaoxi Xu, Xiaoxu Wang, Weiyu Lan, Zhengxiong Jia...

TL;DR本文提出了 COCO-CN 数据集和推荐辅助集体注释系统，通过学习跨语言资源，完成了跨语言的图片标记、字幕和检索任务，为跨语言图像注释和检索领域做出了重要贡献。

Abstract

This paper contributes to cross-lingual image annotation and retrieval in terms of data and baseline methods. We propose COCO-CN, a novel dataset enriching MS-COCO with manually written Chinese sentences and tags

cross-lingual image annotation chinese-english dataset recommendation-assisted collective annotation system cross-lingual resources

发现论文，激发创造

OCNLI: 原生中文自然语言推理

本篇论文针对全球大部分语言缺乏可靠的自然语言推理（NLI）数据集这一问题，提出了中国的首个大规模 NLI 数据集，并采用语言学专家来对其进行注释。通过使用中文预训练模型，对数据集进行了基线测试，发现即使是表现最好的模型，其性能也远远落后于人类，因此这一具有挑战性的新资源有望帮助加速中文 NLU 的进展。该数据集是首个非英语语言的人采集的 MNLI 风格数据集。

Oct, 2020

COCO-Text: 自然图像文本检测和识别数据集与基准

本文介绍了 COCO-Text 数据集，该数据集基于 MS COCO 数据集，旨在推进自然图像的文本检测和识别。数据集中包含超过 173,000 个文本注释和超过 63,000 张图像，文本注释覆盖了文本的边界框、机器印刷文本和手写文本的分类、易读和难读文本的分类、文本的字体和可读文本的转录。本文还提供了数据集注释的准确性统计分析，并对三种最先进的光学字符识别方法在数据集上的表现进行了分析，结果表明文本检测和识别存在显著的不足，需要进一步研究。

Jan, 2016

自然场景下的中文识别

介绍一个街景图中的大规模中文文本数据集，该数据集包含超过 30,000 张街景图中的大约 1 百万个中文字符，同时提供基准结果使用 AlexNet，OverFeat，Google Inception 和 ResNet 进行字符识别，使用 YOLOv2 进行字符检测。

Feb, 2018

图像字幕视觉语义关联数据集

本论文介绍了一种文本视觉背景数据集，用于改进现代图像描述系统，通过融合与场景相关的文本信息，提高图像描述的准确性及语义关联性。

Jan, 2023

Panda-70M：使用多个跨模态教师为 70M 视频加上字幕

通过多模态输入构建高质量视频数据集，使用检索模型选择最佳字幕注释，名为 Panda-70M，训练模型在视频字幕生成、视频与文本检索等任务上具有优异性能。

Feb, 2024

Microsoft COCO 图片描述数据集与评估服务器

本文描述了 Microsoft COCO Caption 数据集和评估服务器，数据集包含超过一百五十万个关于 330,000 张图像的描述性标题，并提供了基于 BLEU, METEOR, ROUGE 和 CIDEr 多个流行度量标准的算法评估方法。

Apr, 2015

交叉的字幕：MS-COCO 的扩展内模态和跨模态语义相似性评估

本研究扩展了 MS-COCO 数据集，提出了 Crisscrossed Captions (CxC)，用于评估跨模态训练和评估，可用于研究跨模态学习对内模态任务的影响，并对现有内模态和多模态模型进行了基准测试。

Apr, 2020

零样本跨语言图像检索

该论文介绍了一种使用跨语言预训练进行零 - shot 学习的多模式语言和视觉问题解决方法，它可以用于构建跨语言图像检索模型和改进文本嵌入聚类，并在多语言环境下进行评估。

Nov, 2020

零样本跨语言图像检索与标记

本论文探讨采用跨语言预训练的零样本方法来学习多模态表示，提出建立跨语言图像检索模型的简单实用方法，并引入了一种新的目标函数来测试多语言 MSCOCO2014 字幕测试数据集（XTD10）的零样本模型性能，证明跨语言模型可用于零样本的下游任务，如多语言图像标记。

Sep, 2021

跨媒体 - 3600：一款大规模多语言多模态评估数据集

本文提出了 Crossmodal-3600 数据集，其中包含 3600 张图片，涵盖了 36 种语言中所使用的地区，并使用人工参考标题对其进行了注释。该数据集被应用于大规模多语言图片字幕模型的选择，并在使用 XM3600 作为自动度量的黄金参考时，展示出与人工评估更高的相关性结果。

May, 2022