Jun, 2024

研究 CoT 增强蒸馏之谜

TL;DR链式思维 (Chain of Thought) 的理由序列已被证明能在问题回答等任务中有效提高语言模型的性能。最近的研究表明,这种理由序列在模型蒸馏中也能起到作用。通过将这些序列(由大型 “教师” 模型生成)与目标标签一同用于微调小型 “学生” 模型,能显著提高性能。本研究旨在探讨为何以及如何这种额外的训练信号能在模型蒸馏中发挥作用,并报道了一些有趣的结果。