Feb, 2024

大型语言模型的知识蒸馏调查

TL;DR知识蒸馏(KD)机制在大型语言模型(LLM)中起着关键作用,将专有的 GPT-4 等模型的先进功能和细腻理解传输到像 LLaMA 和 Mistral 这样的开源模型。此次调查详细讨论了 KD 机制、特定认知能力增强以及其在不同领域的实际应用,展示了数据增广(DA)和 KD 之间的相互关系,旨在弥合专有和开源 LLM 之间的差距,促进更具可访问性、高效性和可持续性的人工智能解决方案。