Feb, 2024

通过知识蒸馏和优化训练策略提高自然语言处理任务性能的大型语言模型

TL;DR该研究将大型语言模型(LLMs)如 GPT-4 与传统自然语言处理(NLP)任务相结合,利用思维链(CoT)提示技术从 GPT-4 中提取知识,并应用于改进较小模型 BERT 在命名实体识别(NER)任务中的效率和效果。通过采用两阶段训练过程,该方法在预训练阶段使用 GPT-4 标注数据,并结合蒸馏和原始人标注数据来完善模型。结果表明,我们的混合训练策略明显优于仅使用人工标注的模型,达到了更高的 F1 得分,并展示了在资源有限或封闭网络环境下的成本效益解决方案。研究还讨论了遇到的挑战,如 LLM 输出的可变性和偏向幻觉,提出了改进提示设计和注释选择的未来工作方向。我们的发现显示出 LLM 洞察力与传统 NLP 技术之间的有希望的协同作用,为更易于接近和强大的 NLP 应用铺平了道路。