越南 COVID-19 命名实体识别

ACLApr, 2021

COVID-19 Named Entity Recognition for Vietnamese

Thinh Hung Truong, Mai Hoang Dao, Dat Quoc Nguyen

TL;DR本文介绍了第一个为越南语手工注释的 COVID-19 领域特定数据集，并用预训练的语言模型 Fine-tuning 进行了实验，发现自动越南语单词分割有助于提高实体识别结果，与多语种模型 XLM-R 相比，越南语单语模型 PhoBERT 表现更好。

Abstract

The current covid-19 pandemic has lead to the creation of many corpora that facilitate NLP research and downstream applications to help fight the pandemic. However, most of these corpora are exclusively for English. As the pandemic is a global problem, it is worth creating

covid-19 vietnamese named entity recognition dataset pre-trained language models

发现论文，激发创造

医学口述实体识别

使用预训练多语言模型 XLM-R，在医学领域的首个口头命名实体识别（Spoken Named Entity Recognition）数据集 VietMed-NER 上取得了最佳表现。

Jun, 2024

利用远程或弱监督方法实现 CORD-19 的全面命名实体识别

创建了覆盖 75 种细粒度实体类型的 CORD-NER 数据集，其中除了常见的生物医学实体类型外，还包括许多新的与 COVID-19 相关的实体类型，该数据集的质量优于 SciSpacy。

Mar, 2020

UIT-ViCoV19QA: 一份越南语 COVID-19 社区问答数据集

Vietnamese researchers presented UIT-ViCoV19QA, the first community-based question answering dataset for COVID-19 from trusted medical sources with multiple paraphrased answers evaluated through deep learning models using commonly used metrics, mainly BLEU, METEOR, and ROUGE-L, which demonstrated significant improvements, and concluded that the deep learning method, especially the Transformer architecture, is dominant in the field of study.

Sep, 2022

为塔加洛语开发命名实体识别数据集

我们为塔加洛语开发了一个命名实体识别（NER）数据集，填补了菲律宾语言中 NER 资源匮乏的空白。文本来源于包含新闻报道的预训练语料库，并由母语人士迭代标注。该数据集包含约 7.8k 个文档，涵盖人名、组织和地点三个实体类型。我们还在有监督学习和迁移学习环境中对最先进的方法进行了广泛的实证评估。最后，我们公开发布了数据和处理代码，以激励未来在塔加洛语自然语言处理方面的研究工作。

Nov, 2023

面向病毒 - 宿主相互作用提取的新数据集

我们描述了一种用于自动识别与病毒和宿主相关的命名分类和其他实体的新数据集，并进一步描述了使用预训练模型在该新数据集上进行命名实体识别（NER）任务的一些初步结果。我们建议，我们手动注释的摘要数据集现在为未来训练自动从科学出版物中提取宿主 - 病原体检测方法的 NER 模型提供了金标准语料库，并进一步解释了我们的工作如何自动从科学文献中预测重要的与人类健康相关的病毒溢出风险的概念。

May, 2023

PhoNLP：越南词性标注、命名实体识别和依存句法分析的联合多任务学习模型

我们首次提出了名为 PhoNLP 的多任务学习模型，可用于联合越南文词性标注、命名实体识别和依存分析，并在越南基准数据集上表现出优秀的效果。我们将 PhoNLP 开源发布作为一个工具包，可直接应用于其他语言的研究和应用中。

Jan, 2021

ViMQ：面向医疗对话系统开发的越南医疗问题数据集

本研究发布了一个越南的医疗问题数据集，具有句子层次和实体层次的注释，旨在改善基于任务的医疗聊天机器人对病人问题的理解能力，并提出了一种自监督的训练策略。

Apr, 2023

细粒度的冠状病毒新闻命名实体

本研究提出了一个数据标注流程，从包括普通和领域特定实体的冠状病毒新闻文章中生成训练数据，并在领域专家手动标注的测试句子上评估训练模型的性能。

Apr, 2024

自动句法特征在越南命名实体识别中的重要性

本论文利用双向长短时记忆（Bi-LSTM）神经网络结合自动语法特征和词嵌入，提出了一种越南命名实体识别系统，其在 2016 年由越南语言与语音处理社区（VLSP）组织的评估中实现了 92.05％的综合 F1 分数，远超过先前的命名实体识别系统。

May, 2017

越南语命名实体识别的注意力神经网络

提出了一种用于越南语命名实体识别的注意力神经网络，其利用基于字符的语言模型和词嵌入来编码单词向量表示，并利用编码器、注意力和解码器层的神经网络架构来编码输入句子的知识和标记实体标签。实验结果表明，与手工制作特征模型和神经模型相比，所提出的注意力神经网络在越南的基准命名实体识别数据集上实现了最先进的结果。

Oct, 2018