MSNER:一个用于命名实体识别的多语言语音数据集
本研究展示如何使用维基百科和Freebase自动构建40种主要语言的多语言命名实体识别注释器,不需要任何人工标注数据集或语言特定的资源,通过生成分布式词表示,达到竞争性的表现,并提出了一种新的远程评估方法。
Oct, 2014
该研究通过一种端到端的神经架构,直接从语音中提取命名实体,并针对语音识别和命名实体识别进行联合优化,相较于传统的流水线方法,实现了更好的命名实体识别结果(测试数据的F-measure=0.69)
May, 2018
本文介绍了第一个公开的针对英语语音的命名实体识别 (NER) 数据集,并提出了一种端到端的方法,该方法同时优化 ASR 和 NER 标记器的组件。实验结果表明,所提出的端到端方法优于经典的两步方法,并讨论了如何使用语音的 NER 来处理 ASR 系统中的词汇外单词 (OOV)。
May, 2020
通过使用非母语注释方法,在低资源情况下的自然语言处理中提出一种改进低资源NER模型的方法,通过实验验证该方法的有效性及优越性,可以在一定程度上替代现有的跨语言方法。
Jun, 2020
本文研究语音识别与文本命名实体识别的端到端模型,研究使用未标注文本数据和数据增强技术来提高实体识别的性能。通过引入自学习、知识蒸馏和迁移学习等方法,该文发现这些技术在资源受限的情况下可以提高实体识别的性能。同时,本文展示了相比于之前的工作,这些方法在F1分数方面提高了长达16%的表现。
Dec, 2021
本文介绍了一个 Named Entity Recognition (NER) 的数据集 AISEHLL-NER,是用于处理中文语音的 NER 任务。文章测试了几种最先进的方法,结果表明通过组合 entity-aware ASR 和预训练的 NER tagger 可以提高模型性能,并且该数据集可以公开获取。
Feb, 2022
本研究利用荷兰语、英语和德语之间的跨语言转移学习,使用管道和端到端(E2E)方案,利用自定义伪标注数据集的Wav2Vec2-XLS-R模型,研究了几种跨语言系统的适应性,结果表明,端到端的口语命名实体识别优于基于管道的替代方案。 转移学习从德语到荷兰语的效果比荷兰语E2E系统高7%,比管道系统高4%。
Jul, 2023
介绍了一个名为Universal NER (UNER)的开源项目,旨在开发多种语言的黄金标准NER基准;UNER的目标是提供高质量的、跨语言一致的标注,以促进和标准化多语言NER研究。UNER v1包含使用一致的跨语言模式在12种不同语言中注释的18个数据集。在本文中,我们详细介绍了UNER的数据集创建和组成,并提供了在本语言和跨语言学习设置下的初始建模基线。我们向公众发布了数据、代码和拟合模型。
Nov, 2023
本文介绍了一项新模型2M-NER,通过对比学习对齐文本和图像表示,并整合多模态合作模块,从而有效地描述了两种模态之间的交互,实现了在多语言和多模态NER任务中F1得分最高的结果。
Apr, 2024
使用预训练多语言模型XLM-R,在医学领域的首个口头命名实体识别(Spoken Named Entity Recognition)数据集VietMed-NER上取得了最佳表现。
Jun, 2024