通过知识蒸馏和优化训练策略提高自然语言处理任务性能的大型语言模型

Feb, 2024

通过知识蒸馏和优化训练策略提高自然语言处理任务性能的大型语言模型

Leveraging Large Language Models for Enhanced NLP Task Performance through Knowledge Distillation and Optimized Training Strategies

PDF

Yining Huang

TL;DR该研究将大型语言模型（LLMs）如 GPT-4 与传统自然语言处理（NLP）任务相结合，利用思维链（CoT）提示技术从 GPT-4 中提取知识，并应用于改进较小模型 BERT 在命名实体识别（NER）任务中的效率和效果。通过采用两阶段训练过程，该方法在预训练阶段使用 GPT-4 标注数据，并结合蒸馏和原始人标注数据来完善模型。结果表明，我们的混合训练策略明显优于仅使用人工标注的模型，达到了更高的 F1 得分，并展示了在资源有限或封闭网络环境下的成本效益解决方案。研究还讨论了遇到的挑战，如 LLM 输出的可变性和偏向幻觉，提出了改进提示设计和注释选择的未来工作方向。我们的发现显示出 LLM 洞察力与传统 NLP 技术之间的有希望的协同作用，为更易于接近和强大的 NLP 应用铺平了道路。

Abstract

The integration of large language models (LLMs) like gpt-4 into traditional Natural Language Processing (NLP) tasks has opened new avenues for enhancing model performance while reducing the reliance on extensive

large language models gpt-4 chain of thought prompting technique bert named entity recognition

发现论文，激发创造

利用大型语言模型扩展基于证据的教学设计专业知识

本论文探讨了在教学设计中利用大型语言模型（LLMs），尤其是 GPT-4 的全面应用。我们关注以缩小理论教育研究和实际实施之间的差距为目的，通过扩大基于证据的教学设计专业知识的规模。本文讨论了 AI 驱动内容生成的益处和局限性，强调人为监督保证教育材料质量的必要性。我们通过两个详细的案例研究阐释了这一工作，其中应用 GPT-4 创建了复杂的高阶评估和不同课程的主动学习组成部分。根据我们的经验，我们提供有效使用 LLM 的最佳实践，如利用模板，微调，处理意外输出，实施 LLM 链，引用参考文献，评估输出，创建量表，评分和生成干扰项。我们还分享了我们对未来的推荐系统的愿景，该推荐系统可以根据用户的独特教育背景，定制 GPT-4 从教育研究中提取教学设计原则，并创建个性化的、具备证据支持的策略。本研究有助于理解和最大限度地利用 AI 驱动的语言模型潜力，以增强教育成果。

May, 2023

使用大语言模型增强基于流水线的会话代理

本研究探讨了大型语言模型（LLM）在改进基于流水线的对话代理中的能力，并通过私人银行业务的实例证明了 LLMs 的潜力和公司采用混合方法的好处。

Sep, 2023

Sci-CoT：利用大型语言模型增强科学问答中小模型的知识蒸馏

本文旨在通过知识蒸馏的方式将大型语言模型的推理能力传递给较小模型，提出了一种名为 Sci-CoT 的两阶段框架，该框架通过分离生成推理步骤和推理答案的过程，在科学问答任务中利用推理步骤更有效地进行推理，使得 8000 万参数的模型在 ARC-Easy 数据集的少样本情况下超过了 BLOOM-176B 的性能。

Aug, 2023

婴儿的共认识：利用大型语言模型提升小型模型的推理能力

通过使用 CoThought 流水线，我们可以有效地训练较小的 BabyLM 语言模型，从而利用 LLMs 的上下文学习能力，将小于 100M 的数据集转变为适用于语言学习者的任务导向的可读文本，经 RoBERTa 的预训练后，BabyLM 在多项语言学、NLU 和问答任务中表现优越，超过 RoBERTa-base 的性能 3 个点以上，显示出更好的上下文信息提取能力。

Aug, 2023

探索大型语言模型用于实现人机协作的可变自主性

该论文探讨了将大型语言模型（如生成式预训练变换器 GPT）整合到人机合作环境中，通过口头人机交流手段促进可变自主性的快速发展的数字景观中，介绍了一种基于 Unity 虚拟现实（VR）环境的 GPT 驱动多机器人测试平台的创新框架。用户研究表明，用户对于与机器人对话的预设期望较高，却很少尝试探索机器人合作伙伴的实际语言和认知能力，但那些进行探索的用户能从更自然的沟通和人类式的双向交流中受益。我们提供了一组对未来研究和类似系统的技术实施的经验教训。

Dec, 2023

AnnoLLM: 使大型语言模型成为更好的众包注释工具

本文提出了一种基于大型语言模型的数据注释方法，通过提示示例和解释的方式，实现了无监督的数据注释，实验结果表明该方法优于众包注释方法。

Mar, 2023

应用大型语言模型和思维链路实现自动评分

该研究通过应用大型语言模型（LLMs），特别是 GPT-3.5 和 GPT-4，结合思维链（CoT），对学生科学评估中的写作回答进行自动评分的应用进行了调查，并专注于克服先前限制研究人员和教育工作者使用自动评估工具的可访问性、技术复杂性和解释性方面的挑战。研究结果表明，GPT-4 相对于 GPT-3.5 在各种评分任务中表现出更高的性能，并且使用 CoT 能够提高评分准确性，特别是当与项目描述和评分标准一起使用时。

Nov, 2023

通过调整和多分支推理增强低参数 LLMs 的普通代理能力

通过构建特定于代理的数据和有监督微调模型，以及设计有效激活大型语言模型推理能力的提示方法，我们提出了一种综合的方法来提高大型语言模型作为代理的性能，并通过在 AgentBench 的五个代理任务上的评估取得了令人满意的结果。

Mar, 2024

基于 LLM 的数据增强方法提升跨语言表现

本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力，通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集，确定了该方法的有效性，并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明，使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀，ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好，但在某些情况下，它们的效益会下降。

May, 2023

基于大型语言模型的文档级机器翻译

本文研究利用 Chat-GPT 建立的大型语言模型在文档级机器翻译中的应用，通过评估话语建模的能力，比较它与商业翻译系统和高级文档级机器翻译方法的性能，发现 Chat-GPT 在人类评估方面表现优异，同时揭示了话语建模的挑战和机遇。

Apr, 2023