推进生物医学文本挖掘的社区挑战
生物医学文献是一个迅速扩展的科学技术领域,本研究提出了 Fine-tuned DistilBERT 方法,这是一种专门针对生物医学文本的预训练生成分类语言模型,通过 40% 减小 BERT 模型尺寸和 60% 的速度提升,证明其在语言理解能力上的有效性。本论文的主要目标是改进模型并评估其性能,以与非 Fine-tuned 模型进行对比。我们使用 DistilBERT 作为支持模型,在包括 32,000 篇摘要和完整文本文章的语料库上进行了预训练,其结果令人印象深刻,超过了使用 RNN 或 LSTM 的传统文献分类方法。我们的目标是将这个高度专业和特定的模型整合到不同的研究行业中。
Apr, 2024
本文介绍了一种新颖的从全文中提取和搜索科学挑战和方向的任务,以促进快速知识发现。我们构建并发布了一个专家注释的语料库,并使用我们的数据训练模型来识别 COVID-19 疫情相关的生物医学跨学科工作中的挑战和方向,从而构建了一个专用搜索引擎。我们的实验表明,我们的系统在协助知识发现方面优于流行的科学搜索引擎,并且我们的模型可以泛化到更广泛的生物医学领域和 AI 论文。
Aug, 2021
通过研究发现,微任务众包平台能够有效地捕捉 PubMed 文摘中的疾病提及,并通过专家投票方法将多个工作者的注释合并,生成 BioNLP 领域中完全标注的语料库。
Aug, 2014
本文系统总结了使用预训练语言模型( Pre-trained language models)的生物医学文本摘要的最新进展、挑战问题和未来方向,帮助我们更好地理解该领域的最新进展和使用预训练语言模型在生物信息学中的应用。
Apr, 2023
该研究调查了大型语言模型在生物医学和健康领域中的多种应用,包括生物医学信息检索、问答、文本摘要、信息提取和医学教育等,并研究了 LLM 是否具有革新这些任务的能力,发现 LLMs 在生物医学文献生成方面已取得了显著进展,但在其他方面,其进展并不太大。虽然大型语言模型在生物医学与健康领域应用的潜力巨大,但其使用也存在某些风险和挑战,例如可疑生成的信息以及涉及敏感病人数据的法律和隐私问题。
Jun, 2023
这篇研究论文介绍了一项工业项目,该项目使用文本挖掘和 NLP 解决方案挖掘了医疗保健领域的数百万异构、多语言采购文件,提取了用于动态评估供应商风险的结构化采购合同数据,并发掘了处理这些挑战的方法以及未来研究和实践的建议。
Jan, 2023
为了促进医学大语言模型的研究,我们将中文生物医学语言理解评估 (CBLUE) 基准重新构建为一个大规模的提示调整基准,PromptCBLUE,用于评估中文大语言模型在广泛的生物医学任务上的多任务能力,包括医学实体识别、医学文本分类、医学自然语言推理、医学对话理解和医学内容 / 对话生成。在这些任务上,我们已经进行了实验并报告了目前使用不同微调技术微调的 9 个中文大语言模型的结果。
Oct, 2023
医疗环境中存在大量且多样化的数据,然而仅有少部分文本化电子健康数据被处理和解释,这导致了大数据操作的困难,研究致力于分析医疗领域的术语、自然语言处理和深度学习技术,以期提出相关解决方案。
Jan, 2024