推进生物医学文本挖掘的社区挑战

Mar, 2024

推进生物医学文本挖掘的社区挑战

Advancing Biomedical Text Mining with Community Challenges

Hui Zong, Rongrong Wu, Jiaxue Cha, Erman Wu, Jiakun Li...

TL;DR对中文生物医学文本挖掘的社区挑战进行了综述和比较分析，总结了其在生物医学研究中的潜在临床应用以及在大语言模型时代的贡献、局限和未来发展方向。

Abstract

The field of biomedical research has witnessed a significant increase in the accumulation of vast amounts of textual data from various sources such as scientific literatures, electronic health records, clinical trial reports, and social media. However, manually processing and analyzing

biomedical text mining community challenge chinese biomedical research large language models

发现论文，激发创造

生物医学文献中实验方法的自动文本挖掘

生物医学文献是一个迅速扩展的科学技术领域，本研究提出了 Fine-tuned DistilBERT 方法，这是一种专门针对生物医学文本的预训练生成分类语言模型，通过 40% 减小 BERT 模型尺寸和 60% 的速度提升，证明其在语言理解能力上的有效性。本论文的主要目标是改进模型并评估其性能，以与非 Fine-tuned 模型进行对比。我们使用 DistilBERT 作为支持模型，在包括 32,000 篇摘要和完整文本文章的语料库上进行了预训练，其结果令人印象深刻，超过了使用 RNN 或 LSTM 的传统文献分类方法。我们的目标是将这个高度专业和特定的模型整合到不同的研究行业中。

Apr, 2024

一种用于科学挑战和方向发现的搜索引擎

本文介绍了一种新颖的从全文中提取和搜索科学挑战和方向的任务，以促进快速知识发现。我们构建并发布了一个专家注释的语料库，并使用我们的数据训练模型来识别 COVID-19 疫情相关的生物医学跨学科工作中的挑战和方向，从而构建了一个专用搜索引擎。我们的实验表明，我们的系统在协助知识发现方面优于流行的科学搜索引擎，并且我们的模型可以泛化到更广泛的生物医学领域和 AI 论文。

Aug, 2021

PubMed 概要中疾病提及标注的微任务众包

通过研究发现，微任务众包平台能够有效地捕捉 PubMed 文摘中的疾病提及，并通过专家投票方法将多个工作者的注释合并，生成 BioNLP 领域中完全标注的语料库。

Aug, 2014

基于预训练语言模型的医学文本摘要综述

本文系统总结了使用预训练语言模型（ Pre-trained language models）的生物医学文本摘要的最新进展、挑战问题和未来方向，帮助我们更好地理解该领域的最新进展和使用预训练语言模型在生物信息学中的应用。

Apr, 2023

ChatGPT 和大型语言模型在生物医学和健康领域的机遇和挑战

该研究调查了大型语言模型在生物医学和健康领域中的多种应用，包括生物医学信息检索、问答、文本摘要、信息提取和医学教育等，并研究了 LLM 是否具有革新这些任务的能力，发现 LLMs 在生物医学文献生成方面已取得了显著进展，但在其他方面，其进展并不太大。虽然大型语言模型在生物医学与健康领域应用的潜力巨大，但其使用也存在某些风险和挑战，例如可疑生成的信息以及涉及敏感病人数据的法律和隐私问题。

Jun, 2023

大语言模型时代的生物医学人工智能

AI 在生物医学领域的应用包括使用大型语言模型来处理生物医学数据，如文本数据、生物序列和脑信号，并面临着可信性、个性化和多模态数据表示等挑战。

Mar, 2024

使用文本挖掘和自然语言处理的医疗采购数据挖掘 —— 一项工业项目的反思

这篇研究论文介绍了一项工业项目，该项目使用文本挖掘和 NLP 解决方案挖掘了医疗保健领域的数百万异构、多语言采购文件，提取了用于动态评估供应商风险的结构化采购合同数据，并发掘了处理这些挑战的方法以及未来研究和实践的建议。

Jan, 2023

PromptCBLUE: 医学领域的汉语提示调优基准

为了促进医学大语言模型的研究，我们将中文生物医学语言理解评估 (CBLUE) 基准重新构建为一个大规模的提示调整基准，PromptCBLUE，用于评估中文大语言模型在广泛的生物医学任务上的多任务能力，包括医学实体识别、医学文本分类、医学自然语言推理、医学对话理解和医学内容 / 对话生成。在这些任务上，我们已经进行了实验并报告了目前使用不同微调技术微调的 9 个中文大语言模型的结果。

Oct, 2023

通过自然语言处理和深度学习在电子健康数据分析中的进展

医疗环境中存在大量且多样化的数据，然而仅有少部分文本化电子健康数据被处理和解释，这导致了大数据操作的困难，研究致力于分析医疗领域的术语、自然语言处理和深度学习技术，以期提出相关解决方案。

Jan, 2024

文本挖掘综述：分类、聚类和提取技术

这篇论文探讨了文本挖掘的任务及技术，其中包括文本预处理、分类和聚类，并简要介绍了文本挖掘在生物医药领域中的应用。

Jul, 2017