QCRD：基于质量引导的对比理由蒸馏用于大型语言模型

May, 2024

QCRD：基于质量引导的对比理由蒸馏用于大型语言模型

QCRD: Quality-guided Contrastive Rationale Distillation for Large Language Models

Wei Wang, Zhaowei Li, Qi Xu, Yiqing Cai, Hang Song...

TL;DR通过对比性理由蒸馏，我们提出了一种质量引导的方法用于推理能力学习，能够从大型语言模型中提取正面和负面的知识理由，并通过在线更新的判别器优化训练过程，得到更高质量的可解释性底层语言模型。

Abstract

Deploying large language models (LLMs) poses challenges in terms of resource limitations and inference efficiency. To address these challenges, recent research has focused on using smaller task-specific language models<

large language models knowledge rationales task-specific language models reasoning capacity learning contrastive rationale distillation

发现论文，激发创造

SCOTT: 自洽思维串讲压缩

提出了一种知识蒸馏方法以学习从比自身大几个数量级的大型语言模型中生成一致合理的解释的小型自洽 Chain-of-Thought（CoT）模型，它使用教师模型生成的合理解释来学习学生模型，并使用对抗性约束来保证学生模型保持一致性和反事实推理，实验结果表明，这种方法可以更好地生成有利于提高性能的 CoT 解释。

May, 2023

知识增强的推理蒸馏：面向知识密集型任务的小型语言模型

提出了知识增强推理提炼（KARD）这一新颖的方法，以从外部知识库检索的增强知识 fine-tune 小型 LM，来生成 rationale，并且进一步提出了神经重新排序器以获取与理性产生相关的文档。该方法在知识密集型推理数据集上显著提高了小型 T5 和 Flan-T5 模型的性能。

May, 2023

利用零射击提示进行高效的语言模型蒸馏

本文介绍了一种新颖的方法，可以将 LLMs 高效地提炼成更小的、面向特定应用的模型，显著降低运营成本和人工劳动。该方法利用 LLMs 的推理能力为无标签数据生成标签和自然语言解释，从而在有限数据和计算资源情况下增强模型的微调和提炼效果。其中关键贡献包括使用零样本提示获取教师模型的解释，减少手工制作的小样本示例的需求，并降低令牌数，这直接转化为主要技术公司 LLM API 的按令牌计费模式下的成本节约。此外，本文还研究了解释特性对提炼效率的影响，并证明了即使在整个数据集上未应用理由增强时也几乎不会导致性能损失，从而进一步减少了令牌数量。这项研究是朝向最小化人工干预、高效训练特定任务模型的一步，提供了大幅降低成本并保持甚至增强性能的可能性。

Mar, 2024

蒸馏对比解码：通过对比解码和蒸馏提高 LLMs 的推理能力

通过使用 Distillation Contrastive Decoding（DCD）方法，我们成功提升了大型语言模型（LLM）在推理过程中的推理能力，该方法结合了 Contrastive Chain-of-thought Prompting 和先进的蒸馏技术，包括 Dropout 和 Quantization，以解决 Contrastive Decoding（CD）的局限性，增强了模型性能。

Feb, 2024

对大型语言模型作为知识密集型任务的合理化特征的刻画

大型语言模型能够在缺乏任务特定监督的情况下生成流畅的文本，但其在具有知识密集型任务中提供有根据的解释的能力仍未得到充分探索。我们通过使用专家编写的几个样本，以少量样本的方式生成基于知识的解释来解决这一问题。通过研究发现，众包工作者更喜欢基于知识的解释，因为它们具有实际性、充分性和全面的反驳。虽然大型语言模型生成的解释更受欢迎，但需要进一步提高简明性和新颖性。另外，我们还展示了错误模型预测的解释如何削弱人类对大型语言模型生成的解释的信任。基于这些观察的动机，我们创建了一个两阶段的流程，在生成解释之前审查任务预测并消除潜在的错误决策，以实现可信赖的解释生成。

Nov, 2023

从 LLMs 中提取复杂推理能力：利用负面数据提炼出来的金子

通过负面样本进行蒸馏以及在算术推理任务中证明负面数据在从 LLM 蒸馏中的作用。

Dec, 2023

TinyLLM: 从多个大型语言模型中学习一个小型学生

通过知识蒸馏，从多个大型教师语言模型中学习小型学生语言模型 TinyLLM，以解决当前方法存在的知识多样性有限和缺乏丰富的上下文信息等问题，并通过引入上下文示例生成器和 teacher-forcing 链式推理策略来确保合理的推理基于适当情境，从而在两个推理任务的六个数据集上的广泛实验中展示了 TinyLLM 方法的优越性，结果表明尽管模型尺寸较小，但 TinyLLM 可显著优于大型教师语言模型。

Feb, 2024

RDRec：基于 LLM 的推荐系统中的原因提炼

本论文提出了一种理由精炼推荐模型（RDRec），通过从用户和物品相关的评论中提取精华，为推荐系统提供了理由，从而将大型语言模型（LLM）的推荐性能推向了前沿。

May, 2024

Sci-CoT：利用大型语言模型增强科学问答中小模型的知识蒸馏

本文旨在通过知识蒸馏的方式将大型语言模型的推理能力传递给较小模型，提出了一种名为 Sci-CoT 的两阶段框架，该框架通过分离生成推理步骤和推理答案的过程，在科学问答任务中利用推理步骤更有效地进行推理，使得 8000 万参数的模型在 ARC-Easy 数据集的少样本情况下超过了 BLOOM-176B 的性能。

Aug, 2023

LLMs 的有效表格推理能力提炼

本论文提出了一种新颖的基于表格推理的蒸馏方法，通过将大型语言模型（LLMs）蒸馏成专门为基于表格推理任务设计的小型模型，实验证明使用蒸馏数据进行微调的 0.22 亿参数模型（Flan-T5-base）在科学表格文本生成数据集（SciGen）上不仅显著提高了性能，而且超越了诸如 gpt-3.5-turbo 等特定 LLMs 的表现。

Sep, 2023