越南 COVID-19 命名实体识别
使用预训练多语言模型 XLM-R,在医学领域的首个口头命名实体识别(Spoken Named Entity Recognition)数据集 VietMed-NER 上取得了最佳表现。
Jun, 2024
创建了覆盖 75 种细粒度实体类型的 CORD-NER 数据集,其中除了常见的生物医学实体类型外,还包括许多新的与 COVID-19 相关的实体类型,该数据集的质量优于 SciSpacy。
Mar, 2020
Vietnamese researchers presented UIT-ViCoV19QA, the first community-based question answering dataset for COVID-19 from trusted medical sources with multiple paraphrased answers evaluated through deep learning models using commonly used metrics, mainly BLEU, METEOR, and ROUGE-L, which demonstrated significant improvements, and concluded that the deep learning method, especially the Transformer architecture, is dominant in the field of study.
Sep, 2022
我们为塔加洛语开发了一个命名实体识别(NER)数据集,填补了菲律宾语言中 NER 资源匮乏的空白。文本来源于包含新闻报道的预训练语料库,并由母语人士迭代标注。该数据集包含约 7.8k 个文档,涵盖人名、组织和地点三个实体类型。我们还在有监督学习和迁移学习环境中对最先进的方法进行了广泛的实证评估。最后,我们公开发布了数据和处理代码,以激励未来在塔加洛语自然语言处理方面的研究工作。
Nov, 2023
我们描述了一种用于自动识别与病毒和宿主相关的命名分类和其他实体的新数据集,并进一步描述了使用预训练模型在该新数据集上进行命名实体识别(NER)任务的一些初步结果。我们建议,我们手动注释的摘要数据集现在为未来训练自动从科学出版物中提取宿主 - 病原体检测方法的 NER 模型提供了金标准语料库,并进一步解释了我们的工作如何自动从科学文献中预测重要的与人类健康相关的病毒溢出风险的概念。
May, 2023
我们首次提出了名为 PhoNLP 的多任务学习模型,可用于联合越南文词性标注、命名实体识别和依存分析,并在越南基准数据集上表现出优秀的效果。我们将 PhoNLP 开源发布作为一个工具包,可直接应用于其他语言的研究和应用中。
Jan, 2021
本研究发布了一个越南的医疗问题数据集,具有句子层次和实体层次的注释,旨在改善基于任务的医疗聊天机器人对病人问题的理解能力,并提出了一种自监督的训练策略。
Apr, 2023
本论文利用双向长短时记忆(Bi-LSTM)神经网络结合自动语法特征和词嵌入,提出了一种越南命名实体识别系统,其在 2016 年由越南语言与语音处理社区(VLSP)组织的评估中实现了 92.05%的综合 F1 分数,远超过先前的命名实体识别系统。
May, 2017
提出了一种用于越南语命名实体识别的注意力神经网络,其利用基于字符的语言模型和词嵌入来编码单词向量表示,并利用编码器、注意力和解码器层的神经网络架构来编码输入句子的知识和标记实体标签。实验结果表明,与手工制作特征模型和神经模型相比,所提出的注意力神经网络在越南的基准命名实体识别数据集上实现了最先进的结果。
Oct, 2018