Apr, 2024

生物医学文献中实验方法的自动文本挖掘

TL;DR生物医学文献是一个迅速扩展的科学技术领域,本研究提出了 Fine-tuned DistilBERT 方法,这是一种专门针对生物医学文本的预训练生成分类语言模型,通过 40% 减小 BERT 模型尺寸和 60% 的速度提升,证明其在语言理解能力上的有效性。本论文的主要目标是改进模型并评估其性能,以与非 Fine-tuned 模型进行对比。我们使用 DistilBERT 作为支持模型,在包括 32,000 篇摘要和完整文本文章的语料库上进行了预训练,其结果令人印象深刻,超过了使用 RNN 或 LSTM 的传统文献分类方法。我们的目标是将这个高度专业和特定的模型整合到不同的研究行业中。