将系统2凝聚为系统1
提出了一种知识蒸馏方法以学习从比自身大几个数量级的大型语言模型中生成一致合理的解释的小型自洽Chain-of-Thought(CoT)模型,它使用教师模型生成的合理解释来学习学生模型,并使用对抗性约束来保证学生模型保持一致性和反事实推理,实验结果表明,这种方法可以更好地生成有利于提高性能的CoT解释。
May, 2023
提出了知识增强推理提炼(KARD)这一新颖的方法,以从外部知识库检索的增强知识fine-tune小型LM,来生成 rationale,并且进一步提出了神经重新排序器以获取与理性产生相关的文档。该方法在知识密集型推理数据集上显著提高了小型T5和Flan-T5模型的性能。
May, 2023
通过Mixed Distillation框架,将大语言模型的Program-of-Thought和Chain-of-Thought的能力转移到较小模型中,提高较小模型的性能,优于传统蒸馏方法,并在多路径推理中实现了令人印象深刻的准确度表现。
Dec, 2023
通过对归纳逻辑编程基准测试的深入评估,本研究表明与模型规模较小的神经程序归纳系统相比,最新的大型语言模型在推理能力方面表现较差,无论是使用自然语言提示还是真值矩阵提示,它们在性能和泛化方面都表现较低。
Jan, 2024
通过将大型语言模型的数学推理能力压缩到亿级参数的小型语言模型中,不影响性能,以实现先进的大型语言模型民主化。我们提出了EoTD(Equation-of-Thought Distillation)技术,将推理过程封装到基于方程的表示中,构建了EoTD数据集用于微调小型语言模型。此外,我们提出了MTD(Mix Thoughts Distillation)框架,以增强小型语言模型的推理性能。实验结果表明,EoTD显著提升了小型语言模型的推理能力,而MTD使这些模型达到了最先进的推理性能。
Jan, 2024
我们提出一种将问题分解为问题分解阶段和问题解决阶段的策略,并证明该策略能够优于单阶段解决方案。通过在结合问题解决LLMs的同时利用较小的问题分解模型,我们能够实现具有高效推理和局部适应性的推理。
Feb, 2024
通过层次化代理模型和知识蒸馏,将大型语言模型的性能通过转移学习到小型语言模型,在科学世界的多任务交互文本环境中胜过其他大型语言模型方法,从而提高了效率。
May, 2024
KPOD框架通过利用遮罩学习来鼓励学生精确模仿关键点标记,并通过渐进式教学策略逐步扩展到整个论证过程,实现了来自大型语言模型的推理能力向较小学生模型的转移,取得了远超之前方法的广泛实验结果。
May, 2024
这篇论文通过从方法、评估和应用三个方面对专门针对大型语言模型的知识蒸馏技术进行了全面调查,将方法分为白盒知识蒸馏和黑盒知识蒸馏,并探讨了不同蒸馏方法之间的评估任务和蒸馏效果,并提出了未来研究的方向。通过深入了解最新进展和实际应用,这篇综述为研究人员提供了有价值的资源,为这一领域的持续进展铺平了道路。
Jul, 2024