Apr, 2024

BMRetriever: 优化大型语言模型作为更好的生物医学文本检索器

TL;DRBMRetriever是一系列密集的检索器,通过在大型生物医学语料库上进行无监督预训练,然后在标记数据集和合成对上进行指导微调,提升生物医学检索的效果。在11个数据集上的5个生物医学任务实验证实了BMRetriever在各种生物医学应用上的有效性。BMRetriever还表现出强大的参数效率,410M版本的性能超过了大约11.7倍更大的基准模型,2B版本则与超过5B参数的模型的性能相匹配。培训数据和模型检查点发布在https://huggingface.co/BMRetriever以确保透明度、可重复性和在新领域中的应用。