TPD: 通过原则发现和指导增强学生语言模型推理能力

Jan, 2024

TPD: 通过原则发现和指导增强学生语言模型推理能力

TPD: Enhancing Student Language Model Reasoning via Principle Discovery and Guidance

Haorui Wang, Rongzhi Zhang, Yinghao Li, Lingkai Kong, Yuchen Zhuang...

TL;DR通过基于原则发现的教师 - 学生框架，我们在大型语言模型中有效传递推理能力，并通过对八项推理任务的广泛实验证明，相比于标准的推理提示，TPD 显著提高了学生模型的性能，平均提升了 6.2%。

Abstract

large language models (LLMs) have recently showcased remarkable reasoning abilities. However, larger models often surpass their smaller counterparts in reasoning tasks, posing the challenge of effectively transfe

large language models teaching via principle discovery reasoning tasks tpd student model

发现论文，激发创造

教授小型语言模型推理

本文探讨通过知识蒸馏将大型语言模型的推理能力迁移至小于 1000 亿参数的模型，实现任务的表现提升，对算术、常识和符号推理数据集效果显著，例如在 PaLM-540B 生成的思考链上进行微调后，T5 XXL 在 GSM8K 的准确率从 8.11％提高至 21.99％。

Dec, 2022

TinyLLM: 从多个大型语言模型中学习一个小型学生

通过知识蒸馏，从多个大型教师语言模型中学习小型学生语言模型 TinyLLM，以解决当前方法存在的知识多样性有限和缺乏丰富的上下文信息等问题，并通过引入上下文示例生成器和 teacher-forcing 链式推理策略来确保合理的推理基于适当情境，从而在两个推理任务的六个数据集上的广泛实验中展示了 TinyLLM 方法的优越性，结果表明尽管模型尺寸较小，但 TinyLLM 可显著优于大型教师语言模型。

Feb, 2024

民主化推理能力：从大型语言模型的个性化学习

通过多轮互动学习范式和自我反思学习，我们提出了一种定制化学习方法，从而将推理能力传授给较小的语言模型，以促进推理能力的开放和普及。

Oct, 2023

教学助理在低预算场景中提高从不完美教师模型的知识蒸馏

通过提出一个三组件框架，利用自洽性、鉴别性和教师的不确定性作为学生培训的三种信号，我们在资源受限、教师性能不完美的场景中提高了样本效率。实验证明，相较于没有任何信号进行微调的情况，我们提出的两阶段框架平均带来了 20.79% 左右的相对提升，适用于四个复杂推理任务。

Jun, 2024

大型语言模型是推理教师

本研究提出了 Fine-tune-CoT 方法，该方法利用非常大的语言模型以生成推理样本并通过微调来教授较小的模型，从而在较小的模型中实现了大量的推理能力优化。

Dec, 2022

思维传播：以类比方式进行复杂推理的大型语言模型

Thought Propagation (TP) leverages insights from solving analogous problems to enhance the complex reasoning ability of Large Language Models (LLMs), achieving substantial improvements in finding optimal solutions, human preference in creative writing, and task completion rate of LLM-Agent Planning.

Oct, 2023

语言模型是否能教授弱智能体？通过心灵理论提升学生表现的教师解释

本文研究了大型语言模型在学生 - 教师框架中作为教师的潜力，探讨了教师在测试时干预学生推理和在特定学生个体上进行个性化解释的方法。

Jun, 2023

PLaD: 偏好基的大型语言模型压缩与伪优选对

本研究提出了一种名为 PLaD 的基于偏好的大型语言模型蒸馏框架，通过利用教师模型与学生模型之间的容量差异生成伪偏好对，使用排名损失重新校准学生模型对序列概率的估计，从而使学生模型更好地理解输出质量的相对优劣，而不是简单地模仿教师模型。通过在两个序列生成任务上进行广泛实验证明了 PLaD 框架的有效性。

Jun, 2024

ItD：大型语言模型通过演绎可以自学感知

通过演绎法进行归纳的新框架（ItD）提高了大型语言模型（LLMs）在归纳任务上的性能，该框架由演绎数据生成模块和朴素贝叶斯归纳模块组成，并在两个归纳基准测试上取得了相对于先前最先进方法分别为 36% 和 10% 的性能提升。

Mar, 2024

大型语言模型用于数学推理的双向指导优化

介绍了利用大型语言模型进行指令调优的最新进展，提出了一种双向指令调优策略，通过前向和后向推理任务来改善语言模型对数学推理的理解与执行能力。通过广泛实验证明，这种策略适用于多种数学推理任务并具有领域通用性。

Mar, 2024