MSNER：一个用于命名实体识别的多语言语音数据集

May, 2024

MSNER：一个用于命名实体识别的多语言语音数据集

MSNER: A Multilingual Speech Dataset for Named Entity Recognition

Quentin Meeus, Marie-Francine Moens, Hugo Van hamme

TL;DR该研究介绍了MSNER，一个多语种语音语料库，用于命名实体识别，并提供了用于训练、验证和评估的数据集，同时推出了一个高效的标注工具。

Abstract

While extensively explored in text-based tasks, named entity recognition (NER) remains largely neglected in spoken language understanding. Existing resources are limited to a single, English-only dataset. This pa

发现论文，激发创造

POLYGLOT-NER：大规模多语言命名实体识别

本研究展示如何使用维基百科和Freebase自动构建40种主要语言的多语言命名实体识别注释器，不需要任何人工标注数据集或语言特定的资源，通过生成分布式词表示，达到竞争性的表现，并提出了一种新的远程评估方法。

Oct, 2014

基于端到端的语音命名实体提取

该研究通过一种端到端的神经架构，直接从语音中提取命名实体，并针对语音识别和命名实体识别进行联合优化，相较于传统的流水线方法，实现了更好的命名实体识别结果（测试数据的F-measure=0.69）

May, 2018

英文语音端到端命名实体识别

本文介绍了第一个公开的针对英语语音的命名实体识别 (NER) 数据集，并提出了一种端到端的方法，该方法同时优化 ASR 和 NER 标记器的组件。实验结果表明，所提出的端到端方法优于经典的两步方法，并讨论了如何使用语音的 NER 来处理 ASR 系统中的词汇外单词 (OOV)。

May, 2020

利用非说话者注释构建低资源命名实体识别模型

通过使用非母语注释方法，在低资源情况下的自然语言处理中提出一种改进低资源NER模型的方法，通过实验验证该方法的有效性及优越性，可以在一定程度上替代现有的跨语言方法。

Jun, 2020

使用外部数据进行口语命名实体识别

本文研究语音识别与文本命名实体识别的端到端模型，研究使用未标注文本数据和数据增强技术来提高实体识别的性能。通过引入自学习、知识蒸馏和迁移学习等方法，该文发现这些技术在资源受限的情况下可以提高实体识别的性能。同时，本文展示了相比于之前的工作，这些方法在F1分数方面提高了长达16%的表现。

Dec, 2021

AISHELL-NER：基于中文语音的命名实体识别

本文介绍了一个 Named Entity Recognition (NER) 的数据集 AISEHLL-NER，是用于处理中文语音的 NER 任务。文章测试了几种最先进的方法，结果表明通过组合 entity-aware ASR 和预训练的 NER tagger 可以提高模型性能，并且该数据集可以公开获取。

Feb, 2022

探索口语命名实体识别：跨语言视角

本研究利用荷兰语、英语和德语之间的跨语言转移学习，使用管道和端到端（E2E）方案，利用自定义伪标注数据集的Wav2Vec2-XLS-R模型，研究了几种跨语言系统的适应性，结果表明，端到端的口语命名实体识别优于基于管道的替代方案。转移学习从德语到荷兰语的效果比荷兰语E2E系统高7％，比管道系统高4％。

Jul, 2023

通用NER：金标准多语言命名实体识别基准

介绍了一个名为Universal NER (UNER)的开源项目，旨在开发多种语言的黄金标准NER基准；UNER的目标是提供高质量的、跨语言一致的标注，以促进和标准化多语言NER研究。UNER v1包含使用一致的跨语言模式在12种不同语言中注释的18个数据集。在本文中，我们详细介绍了UNER的数据集创建和组成，并提供了在本语言和跨语言学习设置下的初始建模基线。我们向公众发布了数据、代码和拟合模型。

Nov, 2023

2M-NER：利用语言和模态融合进行多语言和多模态NER的对比学习

本文介绍了一项新模型2M-NER，通过对比学习对齐文本和图像表示，并整合多模态合作模块，从而有效地描述了两种模态之间的交互，实现了在多语言和多模态NER任务中F1得分最高的结果。

Apr, 2024

医学口述实体识别

使用预训练多语言模型XLM-R，在医学领域的首个口头命名实体识别（Spoken Named Entity Recognition）数据集VietMed-NER上取得了最佳表现。

Jun, 2024