Mar, 2024

教育背景下集成强先验模块和数据重叠估计的三阶段 SFT 混合模型

TL;DR我们提出了一个基于先验的端到端三阶段监督微调模型,它证明比传统的微调方法更有竞争力。我们的模型通过一个采样器和重叠估计神经网络来稳固三类数据分类,并将预处理数据集分三批注入预训练模型进行 LORA 微调。然后,我们设计了一个先验模块耦合系统提示、向量数据库和抽象语法树任务分割。最后,对基于先验的微调模型应用压缩方法和正则化约束,并在输出端进行文本过滤以获得逐步增量式的引导结果。我们的模型是首个真正具备丰富教育知识、逐步增量引导输出和答案保密等特征的导师角色研究的努力。广泛的实验表明,与开源模型相比,我们的模型在编码能力方面也达到了最先进水平,在 HumanEval (@pass 1) 基准测试中取得了令人印象深刻的 75.10%。此外,我们的模型具有强大的对话能力,13B 量化版本在 MMLU、C-Eval 和 AGIEval (5 shot) 对话评估基准测试中分别达到了 56.34、50.60 和 45.27 的分数。