MeDAL: 医学缩写消歧数据集用于自然语言理解预训练

EMNLPDec, 2020

MeDAL: 医学缩写消歧数据集用于自然语言理解预训练

MeDAL: Medical Abbreviation Disambiguation Dataset for Natural Language Understanding Pretraining

Zhi Wen, Xing Han Lu, Siva Reddy

TL;DR本研究旨在解决临床环境中许多 NLP 方法面临的公共数据集稀缺问题，提出了一个大型医学文本数据集 MeDAL，针对缩写消歧设计，用于医学领域的自然语言理解预训练。我们在几种常见架构上预训练了多个模型，并在实验中表明这种预训练可提高下游医学任务的性能和收敛速度。

Abstract

One of the biggest challenges that prohibit the use of many current nlp methods in clinical settings is the availability of public datasets. In this work, we present →

nlp clinical settings medal pre-training medical tasks

发现论文，激发创造

一种用于医学术语缩写消歧的神经主题注意力模型

提出了一种少样本学习方法，使用神经主题 - 注意力模型来改进具有主题信息的上下文化句子表示，以在短量非平衡训练数据集上显著提高医学术语缩略语消歧的性能，尤其是针对罕见意义，已有的稀缺注释数据集不准确和缺失，需要进行修正和补充。

Oct, 2019

采用预训练语言模型提高临床自然语言推理表现 —— 基于 MEDIQA 2019 的研究

本文介绍了一种使用预训练语言模型和迁移学习的基于词 / 子词级别的模型，用于分析医学领域的文本，并在自然语言推理任务中取得了 90.6% 的准确率，为医学领域的模型构建提供了一些有用的信息。

Jun, 2019

PLOD：科学文档中的缩写检测数据集

本文介绍了一个大规模的缩略语检测和提取数据集 PLOD，其中包含超过 160k 个被缩略语和长格式自动注释的文本部分，并使用该数据集生成了多个基线模型用于检测缩写词和长格式。最佳模型检测缩写词的 F1 得分为 0.92，检测其相应的长格式得分为 0.89。

Apr, 2022

MedBLIP: 从 3D 医疗影像和文本数据进行语言 - 图像预训练的自举方法

本文提出了 MedBLIP，这是一个轻量级的 CAD 系统，利用预训练的图像编码器和语言模型，结合维度转换，对医学图像扫描和电子医疗记录中的文本描述进行预训练，最终在 Alzheimer's 病例分类和医学 VQA 领域表现出 SOTA 性能。

May, 2023

基于通用语言模型的非英语医学自然语言处理注释数据集构建

介绍了如何利用预训练语言模型提升非英语医学文本处理的 NLP 任务效率和数据集命中率，并且用我们的方法在德语文本上训练了一个医学 NER 模型 GPTNERMED。

Aug, 2022

MELINDA: 生物医学实验方法分类的多模态数据集

本文介绍了一个新的多模态生物医学实验方法分类数据集 MELINDA，并使用各种最先进的自然语言处理和计算机视觉模型进行了基准测试和分析，结果表明多模态模型优于单模态模型，但仍需要改进，特别是在视觉和语言语义互相理解和转化方面以及在处理低资源域时。该文还发布了数据集和基准测试，以便未来的多模态学习研究，特别是针对科学领域的应用的目标改进的激励。

Dec, 2020

医学缩写消歧的标记分类

本研究旨在探究利用 token 分類方法來消除醫學縮寫的歧義性。使用公開數據集比較多種預先訓練的文本分類算法，其中以 SciBERT 模型效果最佳，並發現對預測結果進行後處理可以有效提高文本分類算法對醫學縮寫消除歧義性的準確性。

Oct, 2022

GLADIS: 一个通用且大规模的缩略语消歧基准

通过构建包含更大的首字母缩略词字典、预训练语料库和三个数据集的新基准 GLADIS，我们基于构建的语料库预训练了一个语言模型 AcroBERT，用于解决一般缩略语消歧问题。

Feb, 2023

针对临床和生物医学文本理解的德语语言模型的综合研究

本文探讨了如何通过在特定领域数据上进行连续预训练，来适应领域特定需求，以提高医学自然语言处理任务的性能。实验证明，通过在临床数据或翻译文本上进行预训练已被证明是在医学领域适应性优化的可靠方法。

Apr, 2024

MedAlign: 临床医生生成的医疗记录遵循数据集

利用大型语言模型（LLMs）遵循人类水平流利的自然语言指令的能力，意味着在医疗保健领域有许多机会减少行政负担并提高护理质量。然而，评估 LLMs 在医疗保健领域的真实文本生成任务上仍然具有挑战性。本文介绍了 MedAlign，这是一个包含 983 个电子病历数据的自然语言指令的基准数据集。通过 MedAlign，我们评估了 6 个通用领域的 LLMs，并通过医生的排名来评估每个 LLM 的准确性和质量。我们发现高错误率（从 35％到 68％），并且 GPT-4 在文本长度从 32k 到 2k 时准确率下降了 8.3％。最后，我们还报告了医生排名和自动化自然语言生成度量之间的相关性，以一种无需人工审查的方式对 LLMs 进行排名。我们将 MedAlign 提供给研究人员使用，以便在与医生需求和偏好相一致的任务上评估 LLMs。

Aug, 2023