利用大型语言模型的知识蒸馏进行网络内容过滤
本研究提出了一种方法,将大型语言模型(LLMs)的知识提炼为一个更小、更高效且准确的神经网络,以实现在资源受限设备上部署这些模型的挑战。我们的方法包括使用 LLM 的预测概率训练较小的学生模型,作为教师模型,通过专门设计的损失函数来学习 LLM 的输出概率,确保学生模型能够准确模仿教师模型的性能。通过对包括 6,684 个学生撰写的科学问题回答及其他数据集的测试,我们将性能与原始神经网络(NN)模型进行了比较,结果显示对于 7T 数据集,NN 模型和提炼的学生模型的准确率与教师模型相当;然而,其他数据集显示 NN 模型的准确率显著较低(平均 28%),然而我们的提炼模型仍然能够比 NN 模型获得更高 12% 的准确率。此外,学生模型的参数大小为 0.1M 至 0.02M,相较于原始输出模型大小减小了 100 倍和 10 倍。该研究的重要性在于其为自动评分在典型教育环境中的运用提供了潜力。
Dec, 2023
LLM 预训练模型通过精心选择文档,可以在仅使用部分 FLOPs 的情况下实现与完整训练相当的模型质量;通过使用提示的 LLM 作为文档评分器,我们将质量标签提取并应用于大规模的互联网抓取数据集,以自动筛除部分文档,从而更好地匹配性能,并通过在上下文中学习来提高标签模型的性能。
Jun, 2024
调查大型语言模型在文本提炼中的潜力,利用不同架构和训练方法的语言模型识别和去除目标变量信息,以保留其他相关信号,并揭示这些模型在计算社会科学研究中处理文本数据时的优势和局限性。
Mar, 2024
我们探索了一种知识消毒方法,用于减轻与大型语言模型(LLMs)相关的隐私问题。我们的方法通过微调模型,在查询特定信息时,促使其生成无害回答,如 “我不知道”。实验证实,我们的简单方法不仅最小化了特定知识泄漏,还保留了 LLM 的整体性能。这两个优势加强了对提取攻击的防御,并减少了产生幻觉等有害内容的排放。
Sep, 2023
本文介绍一种名为 “Distilling step-by-step” 的新机制,该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型,并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明,相对于 finetuning 和 distillation,本机制使用更少的标注 / 非标注训练样例实现更好的性能;并且相对于 LLMs,使用明显更小的模型尺寸实现更好的性能;作者使用了 only 80% of available data on a benchmark task,就可以使用 770M T5 模型胜过 540B PaLM。
May, 2023
本文提出了一种名为 MiniLLM 的方法,该方法利用 Kullback-Leibler 散度,会防止学生模型过度估计教师分布的低概率区域,实现了从生成式语言模型中提取出更小的语言模型,该方法在指令遵循情况下进行了广泛的实验,证明了 MiniLLM 模型的性能表现更佳。
Jun, 2023
通过知识蒸馏,从多个大型教师语言模型中学习小型学生语言模型 TinyLLM,以解决当前方法存在的知识多样性有限和缺乏丰富的上下文信息等问题,并通过引入上下文示例生成器和 teacher-forcing 链式推理策略来确保合理的推理基于适当情境,从而在两个推理任务的六个数据集上的广泛实验中展示了 TinyLLM 方法的优越性,结果表明尽管模型尺寸较小,但 TinyLLM 可显著优于大型教师语言模型。
Feb, 2024
知识蒸馏(KD)机制在大型语言模型(LLM)中起着关键作用,将专有的 GPT-4 等模型的先进功能和细腻理解传输到像 LLaMA 和 Mistral 这样的开源模型。此次调查详细讨论了 KD 机制、特定认知能力增强以及其在不同领域的实际应用,展示了数据增广(DA)和 KD 之间的相互关系,旨在弥合专有和开源 LLM 之间的差距,促进更具可访问性、高效性和可持续性的人工智能解决方案。
Feb, 2024
通过 generation-distillation 训练方法,利用大型 fine-tuned 语言模型生成无标签训练数据,通过知识蒸馏技术将这些数据的知识转移给小型网络,从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距,实现了使用更少的参数(仅为 BERT 的 300 倍)达到与 BERT 可比的性能。
Jan, 2020
我们的研究旨在针对恶意文件开发强大的大型语言模型(LLMs)防御机制,并通过指导调整来提高它们处理危险内容的能力,同时维持其效用和安全之间的平衡。在我们的实证结果中,LLMs 可以通过适当的指导调整显著增强它们处理危险内容的能力。此外,加强易受滥用任务的防御策略对于保护 LLMs 免受处理有害信息的影响是有效的。我们还观察到防御策略中存在效用与安全之间的权衡,其中采用我们提出的方法的 Llama2 相比 Llama1 具有更好的平衡。
May, 2024