婴儿的共认识：利用大型语言模型提升小型模型的推理能力

Aug, 2023

婴儿的共认识：利用大型语言模型提升小型模型的推理能力

Baby's CoThought: Leveraging Large Language Models for Enhanced Reasoning in Compact Models

Zheyu Zhang, Han Yang, Bolei Ma, David Rügamer, Ercong Nie

TL;DR通过使用 CoThought 流水线，我们可以有效地训练较小的 BabyLM 语言模型，从而利用 LLMs 的上下文学习能力，将小于 100M 的数据集转变为适用于语言学习者的任务导向的可读文本，经 RoBERTa 的预训练后，BabyLM 在多项语言学、NLU 和问答任务中表现优越，超过 RoBERTa-base 的性能 3 个点以上，显示出更好的上下文信息提取能力。

Abstract

large language models (LLMs) demonstrate remarkable performance on a variety of Natural Language Understanding (NLU) tasks, primarily due to their in-context learning ability. This ability is utilized in our prop

large language models cothought pipeline babylms contextual information performance

发现论文，激发创造

大型语言模型是推理教师

本研究提出了 Fine-tune-CoT 方法，该方法利用非常大的语言模型以生成推理样本并通过微调来教授较小的模型，从而在较小的模型中实现了大量的推理能力优化。

Dec, 2022

通过知识蒸馏和优化训练策略提高自然语言处理任务性能的大型语言模型

该研究将大型语言模型（LLMs）如 GPT-4 与传统自然语言处理（NLP）任务相结合，利用思维链（CoT）提示技术从 GPT-4 中提取知识，并应用于改进较小模型 BERT 在命名实体识别（NER）任务中的效率和效果。通过采用两阶段训练过程，该方法在预训练阶段使用 GPT-4 标注数据，并结合蒸馏和原始人标注数据来完善模型。结果表明，我们的混合训练策略明显优于仅使用人工标注的模型，达到了更高的 F1 得分，并展示了在资源有限或封闭网络环境下的成本效益解决方案。研究还讨论了遇到的挑战，如 LLM 输出的可变性和偏向幻觉，提出了改进提示设计和注释选择的未来工作方向。我们的发现显示出 LLM 洞察力与传统 NLP 技术之间的有希望的协同作用，为更易于接近和强大的 NLP 应用铺平了道路。

Feb, 2024

小型语言模型是否能帮助大型语言模型更好地进行推理？：LM 引导下的思路链

我们引入了一种新颖的框架，LM-Guided CoT，它利用轻量级（即 <1B）语言模型（LM）指导黑盒大型（即> 10B）LM 在推理任务中的工作。具体而言，轻量级 LM 首先为每个输入实例生成理论依据，接着使用冻结的大型 LM 根据轻量级 LM 生成的理论依据预测任务输出。我们的方法在资源利用上高效，只需要训练轻量级 LM。我们通过知识蒸馏和强化学习来优化模型，其中蒸馏和任务导向的奖励信号用于强化学习。我们通过多跳摘要问答基准 HotpotQA 和 2WikiMultiHopQA 来评估我们的方法。实验结果表明，我们的方法在回答预测准确性方面优于所有基准方法。我们还发现，强化学习有助于模型生成更高质量的理论依据，并提高问答的性能。

Apr, 2024

只有 LLMs 可以进行推理吗？：小型语言模型在任务规划中的潜力

通过构建 COmmand-STeps（COST）数据集，我们比较了 GPT3.5 和 GPT4 与 finetuned GPT2 在桌面和厨房环境中的任务规划表现，结果表明 GPT2-medium 在特定领域的任务规划上与 GPT3.5 相当。

Apr, 2024

Sci-CoT：利用大型语言模型增强科学问答中小模型的知识蒸馏

本文旨在通过知识蒸馏的方式将大型语言模型的推理能力传递给较小模型，提出了一种名为 Sci-CoT 的两阶段框架，该框架通过分离生成推理步骤和推理答案的过程，在科学问答任务中利用推理步骤更有效地进行推理，使得 8000 万参数的模型在 ARC-Easy 数据集的少样本情况下超过了 BLOOM-176B 的性能。

Aug, 2023

ChainLM: 通过改进思维连贯性促进大型语言模型的能力

Chain-of-Thought 提示可以增强大型语言模型（LLMs）的推理能力，现有的 CoT 综合方法针对简单推理任务，导致 CoT 提示的质量低且不一致。为了应对这一挑战，我们进行了 CoT 提示的实证研究并引入了 CoTGenius，一个用于自动生成优质 CoT 提示的新框架。我们进一步采用 CoTGenius 创建了一个广泛的 CoT 数据集，并在该数据集上对 Llama 2-Chat 7B 和 13B 模型进行了微调，得到了 ChainLM 模型。为了解决推理步骤中的累积误差问题，我们提出了一种步骤级辩论方法，其中多个辩论者讨论每个推理步骤，得出正确答案。大量实验证明，与现有模型相比，我们的 ChainLM 模型在解决一系列复杂推理问题方面表现出更高的熟练度。此外，我们对 CoTGenius 中的数据类别对模型性能的影响进行了深入分析。我们在此 https URL 上发布了我们的数据集和代码。

Mar, 2024

使用类人开发数据文集预训练 LLMs

利用与儿童所见的单词数量大致相同的单词数量，我们对大型语言模型进行预训练和评估，以学习上下文词表示，其中比较了不同架构、不同训练轮次的性能变化以及与任务组织者给出的 RoBERTa 基准的训练稳定性和可复现性。

Nov, 2023

大型语言模型是零样本推理器

该研究发现预训练的大型语言模型可以成为良好的零样本推理器，提出了一种零样本的 CoT 方法，将其用于多种复杂的推理任务并取得了显著的性能提升。

May, 2022

应用大型语言模型和思维链路实现自动评分

该研究通过应用大型语言模型（LLMs），特别是 GPT-3.5 和 GPT-4，结合思维链（CoT），对学生科学评估中的写作回答进行自动评分的应用进行了调查，并专注于克服先前限制研究人员和教育工作者使用自动评估工具的可访问性、技术复杂性和解释性方面的挑战。研究结果表明，GPT-4 相对于 GPT-3.5 在各种评分任务中表现出更高的性能，并且使用 CoT 能够提高评分准确性，特别是当与项目描述和评分标准一起使用时。

Nov, 2023

语言模型中的多模态思维链推理

该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架，使得答案推断可以更好地利用基于多模态信息的生成的理由，并取得了比先前最先进的 LLM（GPT-3.5）高 16 个百分点（75.17％-> 91.68％准确度）的性能，在 ScienceQA 基准测试中甚至超过了人类的表现。

Feb, 2023