医学口述实体识别

Jun, 2024

Medical Spoken Named Entity Recognition

Khai Le-Duc

TL;DR使用预训练多语言模型 XLM-R，在医学领域的首个口头命名实体识别（Spoken Named Entity Recognition）数据集 VietMed-NER 上取得了最佳表现。

Abstract

spoken named entity recognition (NER) aims to extracting named entities from speech and categorizing them into types like person, location, organization, etc. In this work, we present vietmed-ner - the first spok

spoken named entity recognition vietmed-ner medical domain pre-trained models xlm-r

发现论文，激发创造

越南 COVID-19 命名实体识别

本文介绍了第一个为越南语手工注释的 COVID-19 领域特定数据集，并用预训练的语言模型 Fine-tuning 进行了实验，发现自动越南语单词分割有助于提高实体识别结果，与多语种模型 XLM-R 相比，越南语单语模型 PhoBERT 表现更好。

Apr, 2021

大规模生物医学命名实体识别

通过在 Apache Spark 之上重新实现 Bi-LSTM-CNN-Char 深度学习架构，我们提出了一个单可训练的命名实体识别（NER）模型，该模型在七个公共生物医学基准测试中获得了新的最优结果，而不使用像 BERT 这样的重型上下文嵌入。该模型在生产级别代码库中作为开源 Spark NLP 库的一部分免费提供，并且可以扩展以支持其他人类语言，而不需要更改代码。

Nov, 2020

MSNER：一个用于命名实体识别的多语言语音数据集

该研究介绍了 MSNER，一个多语种语音语料库，用于命名实体识别，并提供了用于训练、验证和评估的数据集，同时推出了一个高效的标注工具。

May, 2024

VietMed：越南医学领域智能语音识别的数据集和基准

VietMed 是目前世界上最大的公共医学语音识别数据集，涵盖了语音数据、医学领域、越南语、预训练模型等方面，同时还包含涉及 ICD-10 疾病群和国内不同口音的数据。

Apr, 2024

探索口语命名实体识别：跨语言视角

本研究利用荷兰语、英语和德语之间的跨语言转移学习，使用管道和端到端（E2E）方案，利用自定义伪标注数据集的 Wav2Vec2-XLS-R 模型，研究了几种跨语言系统的适应性，结果表明，端到端的口语命名实体识别优于基于管道的替代方案。转移学习从德语到荷兰语的效果比荷兰语 E2E 系统高 7％，比管道系统高 4％。

Jul, 2023

为塔加洛语开发命名实体识别数据集

我们为塔加洛语开发了一个命名实体识别（NER）数据集，填补了菲律宾语言中 NER 资源匮乏的空白。文本来源于包含新闻报道的预训练语料库，并由母语人士迭代标注。该数据集包含约 7.8k 个文档，涵盖人名、组织和地点三个实体类型。我们还在有监督学习和迁移学习环境中对最先进的方法进行了广泛的实证评估。最后，我们公开发布了数据和处理代码，以激励未来在塔加洛语自然语言处理方面的研究工作。

Nov, 2023

科学命名实体识别的分层 Transformer 模型

使用 BERT 和 transformer 层的简单和有效的 Named Entity Recognition 方法在计算机科学和生物医学领域的三个基准数据集上优于当前最先进技术，无需外部资源或特定数据增强。

Mar, 2022

跨文化姓名识别

该研究旨在改进个人姓名的识别，在识别不同文化背景下的姓名方面，通过实验比较结合字符和词的输入模型与传统的 NER 模型，发现该模型表现更好且可能提高准确率。

Jan, 2024

通过多粒度嵌入和增强标注进行多级生物医学命名实体识别

本文提出了一种集成多种模型的混合方法，以解决生物医学实体识别中的局限性，并在 i2b2/2010 数据集上评估，得到了 90.11 的 F1 分数。

Dec, 2023

跨语言命名实体识别的增强迭代知识蒸馏

本文描述了微软在交叉语种命名实体识别中的新实践方法，使用源语种的标注数据和目标语种的无标注数据，采用半监督学习和强化学习的方法来提取弱监督信号并实现了新的最先进性能优于现有的模型。

Jun, 2021