CMNER: 基于社交媒体的中文多模态命名实体识别数据集

Feb, 2024

CMNER: 基于社交媒体的中文多模态命名实体识别数据集

CMNER: A Chinese Multimodal NER Dataset based on Social Media

Yuanze Ji, Bobo Li, Jun Zhou, Fei Li, Chong Teng...

TL;DR通过从中国最大的社交媒体平台微博获取数据，我们编制了一个包含 5000 个微博帖子和 18326 个对应图片的中文多模态命名实体识别数据集（CMNER）。我们在 CMNER 上进行了基准实验，结果表明将图像与 NER 相结合的有效性。此外，我们还在公开的英文多模态命名实体识别数据集（Twitter2015）上进行了跨语言实验，结果证实了中文和英文多模态 NER 数据可以相互增强 NER 模型的性能。

Abstract

multimodal named entity recognition (MNER) is a pivotal task designed to extract named entities from text with the support of pertinent images. Nonetheless, a notable paucity of data for →

multimodal named entity recognition chinese mner dataset images ner model

发现论文，激发创造

短社交媒体帖子的多模态实体识别

本研究提出 Multimodal Named Entity Recognition (MNER) 任务，针对用户生成的显式短文本和图像（如 Snapchat 详情）创建了一个新的数据集 SnapCaptions，并利用最先进的 Bi-LSTM 基于词语 / 字符的 NER 模型和深度图像网络结合通用模态注意力模块实现 MNER 任务，成功的通过利用提供的视觉上下文背景比文本 NER 模型具有更佳的性能表现。

Feb, 2018

2M-NER：利用语言和模态融合进行多语言和多模态 NER 的对比学习

本文介绍了一项新模型 2M-NER，通过对比学习对齐文本和图像表示，并整合多模态合作模块，从而有效地描述了两种模态之间的交互，实现了在多语言和多模态 NER 任务中 F1 得分最高的结果。

Apr, 2024

利用多语言数据的混合编码命名实体识别：SemEval-2022 任务 11 上的 CMNEROne

本文探讨在自然语言处理领域中识别命名实体的挑战，并着重分析代码混合文本在语言上的复杂性。作者通过利用多语言数据实现了对代码混合数据集中的命名实体识别，并取得了 0.7044 的加权平均 F1 值，比基准线高 6%。

Jun, 2022

MultiCoNER：一个用于复杂命名实体识别的大型多语言数据集

介绍了一种名为 MultiCoNER 的大型多语言数据集，可支持 11 种语言和 3 个领域的命名实体识别。使用两个 NER 模型对数据集进行了测试，并对其进行了评估。建立的模型都表现出了不俗的性能，但加入 Gazetteers 后性能提高了 30%。希望这个数据集能够帮助研究人员建立更为健壮的命名实体识别系统。

Aug, 2022

利用多个嵌入进行中文命名实体识别

本文提出了一种简单而有效的基于神经网络的框架 ME-CNER，用于通过多粒度的字符级表示来识别汉语微博中的命名实体。实验结果表明，该方法在 Weibo 数据集上取得了显著的性能提升。

Aug, 2019

一种新的多模态命名实体识别框架，具有多级对齐

本文针对 Tweet 这类多模态数据，提出一种能够动态对齐图像和文本顺序，实现多级跨模态学习，以提高命名实体识别（MNER）的文本表示的新方法。实验结果及详细分析表明了模型的优势。

May, 2023

CLUENER2020: 面向中文的细粒度命名实体识别数据集及基准

介绍了 CLUE 组织发布的 NER 数据集 CLUENER2020 ，它是一个细粒度的、为中文命名实体识别而设计的数据集，包含 10 类别，并且更具挑战性。针对该数据集，实现了几种当前最先进的序列标记任务方法，报告了人类表现及其分析，并发布了该数据集、基线和排行榜。

Jan, 2020

MSNER：一个用于命名实体识别的多语言语音数据集

该研究介绍了 MSNER，一个多语种语音语料库，用于命名实体识别，并提供了用于训练、验证和评估的数据集，同时推出了一个高效的标注工具。

May, 2024

图像对于多模态命名实体识别的角色研究

研究了多模态融合技术在多模态命名实体识别任务中的应用，通过分析不同技巧的融合效果，发现添加图片信息不总是有益的，并探究了使用字幕丰富上下文的作用。在三个社交平台数据集上的实验揭示了现有多模态模型的瓶颈，以及使用字幕的益处。

Oct, 2020

CNN-LSTM-CRF 和词语分割联合训练实现的神经网络中文命名实体识别

本文提出了一种神经方法来解决中文命名实体识别的挑战，该方法包括使用 CNN-LSTM-CRF 神经架构来捕捉 CNER 的本地和长距离上下文，引入统一框架来联合训练 CNER 和分词模型以增强 CNER 模型在识别实体边界方面的能力，以及使用自动方法从现有标记数据生成伪标记样本来扩充训练数据。实验结果表明，该方法特别适用于训练数据不足的情况下，可以有效提高中文命名实体识别的性能。

Apr, 2019