May, 2024

QCRD:基于质量引导的对比理由蒸馏用于大型语言模型

TL;DR通过对比性理由蒸馏,我们提出了一种质量引导的方法用于推理能力学习,能够从大型语言模型中提取正面和负面的知识理由,并通过在线更新的判别器优化训练过程,得到更高质量的可解释性底层语言模型。