基于BioBERT的生物医学文献中SNP特征关联提取
本文介绍了如何将自然语言处理(NLP)中最新的预训练语言模型BERT应用于生物医学文献的文本挖掘,并提出了一种自然语言处理(BioBERT)模型用于生物医学文本挖掘,该模型在以前的生物医学文本挖掘任务中表现得比BERT好并且公开了该模型的预训练权重以及源代码。
Jan, 2019
本篇论文介绍了Phenotype-Gene Relations(PGR)语料库,这是一个包含1712篇概要、5676个人类表型注释、13835个基因注释和4283个关系注释的银标准语料库,使用命名实体识别工具生成,并获得87.01%的精度。该语料库可用于关系提取,并与两个深度学习工具产生了良好的结果。
Mar, 2019
提出一种在大规模生物医学语料库上训练的具有生物医学上下文依赖命名实体识别能力的领域特定语言模型——生物医学ALBERT,并在8个不同的医学NER基准数据集上展现出极高的性能表现,该模型可供未来研究使用。
Sep, 2020
本文提出了一个多实体类型和多关系对的文献级生物医学关系抽取数据集BioRED,包括新发现和先前已知的信息,旨在评估现有状态下的自动化算法,为更准确、高效和稳健的生物医学关系系统的开发奠定基础。
Apr, 2022
本文介绍了使用自动化系统DEXTER从生物医学摘要中提取基因疾病关联(GDAs)的工作,旨在为未来的关系提取研究提供基准,以启用研究人员测试和比较其结果。
Jul, 2022
本论文提出了一种数据丰富的方法,将多个医学相关的 Relation Extraction 数据集组合成一个大型数据集,并使用 BioREx 实现了关系提取任务,结果表明,BioREx 在各种关系任务中的表现都优于当前最好的执行方法。
Jun, 2023
这篇论文介绍了SimpleGermKG,一种自动构建知识图谱的方法,该方法连接了生殖祖细胞基因和疾病。通过使用生物医学语料库上预训练的BERT模型BioBERT,提取基因和疾病,并提出本体基于和规则基于算法对医学术语进行标准化和消歧。为了表示语义关系,采用了部分-整体关系方法将每个实体与其数据源连接,并以图形表示形式进行可视化。最后,讨论了知识图谱的应用、限制和未来对生殖细胞语料库的研究挑战,并展示了结果的图形可视化。
Sep, 2023
本研究全面调查了大型语言模型(尤其是BioBERT)在医疗保健领域的应用。它从彻底检查先前的自然语言处理(NLP)方法在医疗保健领域的应用开始,揭示了这些方法面临的限制和挑战。随后,研究探索了将BioBERT应用于医疗保健应用的路径,突出了它适用于处理生物医学文本挖掘任务的特定要求。该分析提出了一种系统的方法,用于微调BioBERT以满足医疗保健领域的独特需求。该方法包括从各种医疗保健来源获取数据,对诸如识别医疗实体和对其进行分类等任务进行数据注释,以及应用专门为处理生物医学文本中的复杂性而量身定制的预处理技术。此外,本研究还涵盖了与模型评估相关的方面,重点关注医疗保健基准以及在生物医学中自然语言处理、问答、临床文档分类和医疗实体识别等功能的处理。它探索了提高模型可解释性的技术,并验证了其性能与现有的以医疗保健为重点的语言模型相比。本研究全面检查了伦理考虑,特别是患者隐私和数据安全。它强调了将BioBERT纳入医疗保健环境的好处,包括增强临床决策支持和更高效的信息检索。然而,它也承认了此集成的障碍和复杂性,包括与数据隐私、透明度、资源需求以及使模型与各种医疗保健领域保持一致的定制需求相关的问题。
Oct, 2023
生物医学文献是一个迅速扩展的科学技术领域,本研究提出了Fine-tuned DistilBERT方法,这是一种专门针对生物医学文本的预训练生成分类语言模型,通过40%减小BERT模型尺寸和60%的速度提升,证明其在语言理解能力上的有效性。本论文的主要目标是改进模型并评估其性能,以与非Fine-tuned模型进行对比。我们使用DistilBERT作为支持模型,在包括32,000篇摘要和完整文本文章的语料库上进行了预训练,其结果令人印象深刻,超过了使用RNN或LSTM的传统文献分类方法。我们的目标是将这个高度专业和特定的模型整合到不同的研究行业中。
Apr, 2024
本文介绍了一种增强生物医学文本中关系抽取的方法,重点关注化学基因相互作用。利用BioBERT模型和多层全连接网络架构,我们的方法使用一种新颖的合并策略,将ChemProt和DrugProt数据集集成在一起。通过大量实验,我们证明了显著的性能提升,特别是在数据集之间共享的CPR组。研究结果强调了数据集合并在增加样本数量和提高模型准确性方面的重要性。此外,该研究突显了自动化信息提取在生物医学研究和临床实践中的潜力。
May, 2024