Oct, 2023

Mistral 7B

TL;DRMistral 7B v0.1 是一个拥有 70 亿参数的语言模型,通过使用分组查询注意力(GQA)和滑动窗口注意力(SWA)提高了推理效率,并且还提供了一个经过调整的模型 Mistral 7B -- Instruct,在人类和自动化评测中都超过了 Llama 2 13B -- Chat 模型。