Jan, 2024

Quokka: 一个面向材料科学的开源大型语言模型聊天机器人

TL;DR本文介绍了一种专门用于材料科学的聊天机器人的开发,利用了Llama-2语言模型,并在S2ORC数据集中的广阔研究论文上继续进行预训练。该方法包括对100万多个领域特定论文进行初步预训练,然后通过指令调整过程来改进聊天机器人的能力。该聊天机器人旨在通过为材料科学领域的查询提供即时的、上下文感知的回复,来帮助研究人员、教育工作者和学生。我们提供了四个经过训练的检查点(7B、13B,具有或不具有聊天功能),供研究社区免费使用。