生物医学文献中实验方法的自动文本挖掘

Apr, 2024

生物医学文献中实验方法的自动文本挖掘

Automated Text Mining of Experimental Methodologies from Biomedical Literature

Ziqing Guo

TL;DR生物医学文献是一个迅速扩展的科学技术领域，本研究提出了 Fine-tuned DistilBERT 方法，这是一种专门针对生物医学文本的预训练生成分类语言模型，通过 40% 减小 BERT 模型尺寸和 60% 的速度提升，证明其在语言理解能力上的有效性。本论文的主要目标是改进模型并评估其性能，以与非 Fine-tuned 模型进行对比。我们使用 DistilBERT 作为支持模型，在包括 32,000 篇摘要和完整文本文章的语料库上进行了预训练，其结果令人印象深刻，超过了使用 RNN 或 LSTM 的传统文献分类方法。我们的目标是将这个高度专业和特定的模型整合到不同的研究行业中。

Abstract

biomedical literature is a rapidly expanding field of science and technology. classification of biomedical texts is an essential part of biomedicine research, especially in the field of biology. This work propose

biomedical literature classification distilbert biomedicine texts linguistic understanding

发现论文，激发创造

BioBERT：用于生物医学文本挖掘的预训练生物医学语言表示模型

本文介绍了如何将自然语言处理 (NLP) 中最新的预训练语言模型 BERT 应用于生物医学文献的文本挖掘，并提出了一种自然语言处理 (BioBERT) 模型用于生物医学文本挖掘，该模型在以前的生物医学文本挖掘任务中表现得比 BERT 好并且公开了该模型的预训练权重以及源代码。

Jan, 2019

从生物医学文献中进行意图识别和实体提取

通过全面的实证评估，我们表明在生物医学文本中，受监督的微调方法仍然相关且比通用性的大型语言模型更有效，如 PubMedBERT 可以仅凭 5 个受监督示例就能在命名实体识别任务上超过 ChatGPT。

Apr, 2024

LitMC-BERT：基于 Transformer 的生物医学文献多标签分类及其在 COVID-19 文献管理中的应用

该研究提出了一个基于转换器的多标签分类方法，名称为 LITMC-BERT，用于处理生物医学文献中的 LitCovid。与三种基线模型相比，LITMC-BERT 的 micro-F1 和基于样例的 F1 分别比当前最佳结果高 5％和 4％，且只需要 Binary BERT 基线的约 18％的推理时间。

Apr, 2022

生物医学关系抽取方法和模型比较及其在知识图谱构建中的应用

本研究介绍比较了在构建知识图谱中用于从生物医学文献中提取关系方面的一些基于规则和基于机器学习的方法，例如：朴素贝叶斯、随机森林、DistilBERT、PubMedBERT、T5、SciFive 等，通过实验检测不同方法的适用性和鲁棒性。结果表明，基于 transformers 的模型（如 PubMedBERT）在处理小型和不平衡的数据时表现较好。其中，在平衡数据上，PubMedBERT 模型的 F1 得分最高（0.92）。

Jan, 2022

面向中文生物医药文本挖掘的概念化表征学习

本文研究如何将预训练语言模型 BERT 改进适用于中文生物医学文本，并提出了一种新的概念化表示学习方法。我们还发布了一个新的中文生物医学语言理解评估基准（ extbf {ChineseBLUE}），实验结果表明我们的方法可以获得显著的收益。

Aug, 2020

医疗领域大型语言模型的分析：以 BioBERT 为案例研究

本研究全面调查了大型语言模型（尤其是 BioBERT）在医疗保健领域的应用。它从彻底检查先前的自然语言处理（NLP）方法在医疗保健领域的应用开始，揭示了这些方法面临的限制和挑战。随后，研究探索了将 BioBERT 应用于医疗保健应用的路径，突出了它适用于处理生物医学文本挖掘任务的特定要求。该分析提出了一种系统的方法，用于微调 BioBERT 以满足医疗保健领域的独特需求。该方法包括从各种医疗保健来源获取数据，对诸如识别医疗实体和对其进行分类等任务进行数据注释，以及应用专门为处理生物医学文本中的复杂性而量身定制的预处理技术。此外，本研究还涵盖了与模型评估相关的方面，重点关注医疗保健基准以及在生物医学中自然语言处理、问答、临床文档分类和医疗实体识别等功能的处理。它探索了提高模型可解释性的技术，并验证了其性能与现有的以医疗保健为重点的语言模型相比。本研究全面检查了伦理考虑，特别是患者隐私和数据安全。它强调了将 BioBERT 纳入医疗保健环境的好处，包括增强临床决策支持和更高效的信息检索。然而，它也承认了此集成的障碍和复杂性，包括与数据隐私、透明度、资源需求以及使模型与各种医疗保健领域保持一致的定制需求相关的问题。

Oct, 2023

紧凑型医学变压器的有效性

本文介绍通过知识蒸馏和 Masked Language Modelling (MLM) 目标函数得到的六个轻量化模型 (BioDistilBERT、BioTinyBERT、BioMobileBERT、DistilBioBERT、TinyBioBERT 和 CompactBioBERT)，并在三个生物医学任务中进行评估。实验表明，这些模型与体积更大的 BioBERT-v1.1 性能相当，其速度更快而且更易于使用。

Sep, 2022

使用大型语言模型进行生物医学知识提取的精馏：以药物不良反应为例的案例研究

该论文研究了如何使用基于自我监督学习的蒸馏模型，以大幅提高大型语言模型在生物医学知识整理和提取方面的效率和准确性。在药物不良事件提取等主要医学知识提取任务上，这种方法大大超越了标准模型，并具有成本效益和访问模型内部结构等优点。

Jul, 2023

用于定位医学 BERT 和增强生物医学 BERT 的预训练技术

本研究探讨了如何通过对特定语料库的过采样和使用更大的语料库进行预训练，在医学和其他领域中建立高性能的 BERT 模型以提高自然语言处理中信息提取的性能。

May, 2020

MedMine：基于预训练语言模型的药物挖掘研究

自动药物挖掘是当前热门话题，本文通过对预训练语言模型进行微调，研究了其在医疗临床实践中的应用，并比较了各模型的优缺点及对不同实体类型和临床事件的表现差异，这些发现有助于未来的研究和改进。

Aug, 2023