Apr, 2024

OpenBezoar: 小型、经济高效且开放式模型用于混合指导数据训练

TL;DR使用基于 OpenLLaMA 3Bv2 的基本模型,我们描述了用于微调 OpenBezoar 系列模型的配方,并证明了最终检查点 “OpenBezoar-HH-RLHF-DPO” 在 3B 参数规模上胜过许多其他模型。