MeDAL: 医学缩写消歧数据集用于自然语言理解预训练
提出了一种少样本学习方法,使用神经主题 - 注意力模型来改进具有主题信息的上下文化句子表示,以在短量非平衡训练数据集上显著提高医学术语缩略语消歧的性能,尤其是针对罕见意义,已有的稀缺注释数据集不准确和缺失,需要进行修正和补充。
Oct, 2019
本文介绍了一种使用预训练语言模型和迁移学习的基于词 / 子词级别的模型,用于分析医学领域的文本,并在自然语言推理任务中取得了 90.6% 的准确率,为医学领域的模型构建提供了一些有用的信息。
Jun, 2019
本文介绍了一个大规模的缩略语检测和提取数据集 PLOD,其中包含超过 160k 个被缩略语和长格式自动注释的文本部分,并使用该数据集生成了多个基线模型用于检测缩写词和长格式。最佳模型检测缩写词的 F1 得分为 0.92,检测其相应的长格式得分为 0.89。
Apr, 2022
本文提出了 MedBLIP,这是一个轻量级的 CAD 系统,利用预训练的图像编码器和语言模型,结合维度转换,对医学图像扫描和电子医疗记录中的文本描述进行预训练,最终在 Alzheimer's 病例分类和医学 VQA 领域表现出 SOTA 性能。
May, 2023
介绍了如何利用预训练语言模型提升非英语医学文本处理的 NLP 任务效率和数据集命中率,并且用我们的方法在德语文本上训练了一个医学 NER 模型 GPTNERMED。
Aug, 2022
本文介绍了一个新的多模态生物医学实验方法分类数据集 MELINDA,并使用各种最先进的自然语言处理和计算机视觉模型进行了基准测试和分析,结果表明多模态模型优于单模态模型,但仍需要改进,特别是在视觉和语言语义互相理解和转化方面以及在处理低资源域时。该文还发布了数据集和基准测试,以便未来的多模态学习研究,特别是针对科学领域的应用的目标改进的激励。
Dec, 2020
本研究旨在探究利用 token 分類方法來消除醫學縮寫的歧義性。使用公開數據集比較多種預先訓練的文本分類算法,其中以 SciBERT 模型效果最佳,並發現對預測結果進行後處理可以有效提高文本分類算法對醫學縮寫消除歧義性的準確性。
Oct, 2022
通过构建包含更大的首字母缩略词字典、预训练语料库和三个数据集的新基准 GLADIS,我们基于构建的语料库预训练了一个语言模型 AcroBERT,用于解决一般缩略语消歧问题。
Feb, 2023
本文探讨了如何通过在特定领域数据上进行连续预训练,来适应领域特定需求,以提高医学自然语言处理任务的性能。实验证明,通过在临床数据或翻译文本上进行预训练已被证明是在医学领域适应性优化的可靠方法。
Apr, 2024
利用大型语言模型(LLMs)遵循人类水平流利的自然语言指令的能力,意味着在医疗保健领域有许多机会减少行政负担并提高护理质量。然而,评估 LLMs 在医疗保健领域的真实文本生成任务上仍然具有挑战性。本文介绍了 MedAlign,这是一个包含 983 个电子病历数据的自然语言指令的基准数据集。通过 MedAlign,我们评估了 6 个通用领域的 LLMs,并通过医生的排名来评估每个 LLM 的准确性和质量。我们发现高错误率(从 35%到 68%),并且 GPT-4 在文本长度从 32k 到 2k 时准确率下降了 8.3%。最后,我们还报告了医生排名和自动化自然语言生成度量之间的相关性,以一种无需人工审查的方式对 LLMs 进行排名。我们将 MedAlign 提供给研究人员使用,以便在与医生需求和偏好相一致的任务上评估 LLMs。
Aug, 2023