领域特定预训练对垂直搜索的影响:以生物医学文献为例的案例研究
本文通过编制全面的生物医学 NLP 基准测试集,证明了在丰富的未标记文本的领域中,从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型,能够显著提高生物医学 NLP 任务的效果,并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型,并创建了一个包含我们的 BLURB 基准测试的排行榜。
Jul, 2020
生物医学摘要需要大规模数据集以训练文本生成。通过我们的研究,我们发现,虽然迁移学习是解决这一挑战的一个可行选择,但在一个 BioASQ 摘要任务中,域内预训练并不总是带来优势。我们确定了一种适合的模型架构,并使用它展示了一个通用领域预训练,并在 BioASQ 摘要任务的背景下进行任务特定的微调的好处,从而实现了一种新的三步微调方法,只需使用一千个域内示例即可。我们的结果表明,在某些特定领域的生物医学文本生成任务中,没有进行领域特定预训练的大规模语言模型可能具有明显优势。
Jul, 2023
本文介绍了 BiomedCLIP 在生物医学视觉语言处理方面的应用,该方法针对生物医学 VLP 进行改进和优化,实验结果显示,BiomedCLIP 已成为标准数据集中广泛应用于检索、分类和视觉问答等任务的新的最佳模型,且在某些领域甚至胜过了目前的最新模型。
Mar, 2023
本研究探讨了如何通过对特定语料库的过采样和使用更大的语料库进行预训练,在医学和其他领域中建立高性能的 BERT 模型以提高自然语言处理中信息提取的性能。
May, 2020
本文介绍了一种新颖的从全文中提取和搜索科学挑战和方向的任务,以促进快速知识发现。我们构建并发布了一个专家注释的语料库,并使用我们的数据训练模型来识别 COVID-19 疫情相关的生物医学跨学科工作中的挑战和方向,从而构建了一个专用搜索引擎。我们的实验表明,我们的系统在协助知识发现方面优于流行的科学搜索引擎,并且我们的模型可以泛化到更广泛的生物医学领域和 AI 论文。
Aug, 2021
本文系统总结了使用预训练语言模型( Pre-trained language models)的生物医学文本摘要的最新进展、挑战问题和未来方向,帮助我们更好地理解该领域的最新进展和使用预训练语言模型在生物信息学中的应用。
Apr, 2023
本文介绍了基于目标域文本的 Word2Vec 的训练和对齐策略,用于适应已有的预训练语言模型,并在生物医学实体识别任务和 Covid-19 问答任务上取得了 60% 的 BioBERT-BERT F1 差距的覆盖率,且成本仅相当于 BioBERT 的 5% 的 CO2 排放和 2% 的云计算成本。
Apr, 2020
该研究报告主要讨论了如何利用生物医学文本挖掘方法自动分配主题标签以便更好地理解和利用 LitCovid 数据库中的 COVID-19 相关文章,以促进疫苗和药物的研发。
Apr, 2022
本文介绍了针对西班牙语的生物医学和临床语言模型,通过实验不同的预训练选择和测试领域数据,生成可用于实际临床数据的模型,并通过对比 NER 任务,证实了进行特定领域的预训练对提高下游任务性能非常重要。
Sep, 2021
本文介绍了一种使用预训练语言模型和迁移学习的基于词 / 子词级别的模型,用于分析医学领域的文本,并在自然语言推理任务中取得了 90.6% 的准确率,为医学领域的模型构建提供了一些有用的信息。
Jun, 2019