Dec, 2023

通过附加训练将特定科学知识教授给大型语言模型

TL;DR通过额外的训练,我们探索将专门的科学知识嵌入到 Llama 2 Large Language Model(LLM)中。研究结果表明,有效的知识整合需要从多个角度阅读文本,尤其是在指导性格式下。我们利用文本增强来解决专业文本稀缺的问题,包括风格转换和翻译。超参数优化被证明是至关重要的,不同尺寸的模型(7b、13b 和 70b)在额外的训练中表现出合理的结果。通过验证我们的方法,我们构建了一个包含 65,000 篇科学论文的数据集。尽管我们在部分嵌入知识方面取得了成功,但该研究凸显了将专业信息整合到 LLM 中的复杂性和局限性,并提出了进一步改进的领域。