Feb, 2024

CMNER: 基于社交媒体的中文多模态命名实体识别数据集

TL;DR通过从中国最大的社交媒体平台微博获取数据,我们编制了一个包含 5000 个微博帖子和 18326 个对应图片的中文多模态命名实体识别数据集(CMNER)。我们在 CMNER 上进行了基准实验,结果表明将图像与 NER 相结合的有效性。此外,我们还在公开的英文多模态命名实体识别数据集(Twitter2015)上进行了跨语言实验,结果证实了中文和英文多模态 NER 数据可以相互增强 NER 模型的性能。