Jun, 2024

SeCoKD: 对大型语言模型进行上下文学习的对齐方法,更少的示例

TL;DR我们研究了如何减少示范数量,同时保持竞争性能。我们提出了 SeCoKD,一种自我知识蒸馏训练框架,通过将学生模型与大量提示变体对齐,从而提高单个示范的利用率。结果表明我们的方法在零示范和一示范设置中分别比基准模型和监督微调 (SFT) 的性能高出 30%和 10%。此外,SeCoKD 在新任务评估时几乎没有负面作用,比监督微调更稳健。