May, 2024

INDUS: 科学应用中的高效有效语言模型

TL;DR我们开发了 INDUS,一套针对地球科学、生物学、物理学、太阳物理学、行星科学和天体物理学领域进行定制的大型语言模型(LLMs),并使用从多种数据源中提取的策划科学文献进行训练。此模型套件包括利用特定领域词汇和文献进行训练的编码器模型,基于对比学习的一般文本嵌入模型,以及使用知识蒸馏技术创建的资源受限应用模型。我们还创建了三个新的科学基准数据集,加速研究这些多学科领域,最后证明我们的模型在这些新任务以及感兴趣领域的现有基准任务上优于通用编码器(RoBERTa)和现有的领域特定编码器(SciBERT)。