Dec, 2023

混合蒸馏助于小型语言模型更好地进行推理

TL;DR通过 Mixed Distillation 框架,将大语言模型的 Program-of-Thought 和 Chain-of-Thought 的能力转移到较小模型中,提高较小模型的性能,优于传统蒸馏方法,并在多路径推理中实现了令人印象深刻的准确度表现。