小而有趣：基于反馈的幽默提炼方法

Feb, 2024

小而有趣：基于反馈的幽默提炼方法

Small But Funny: A Feedback-Driven Approach to Humor Distillation

Sahithya Ravi, Patrick Huber, Akshat Shrivastava, Aditya Sagar, Ahmed Aly...

TL;DR大语言模型通过模仿教师反馈进行提炼来传递知识，但在需要复杂的语言理解和创造力的任务上存在性能差距。本研究通过给大语言模型分配双重角色，作为生成数据的 “教师” 和评估学生表现的 “评论家”，研究了与教师的补充指导相关的影响。实验结果表明，将反馈引入到过程中可以显著缩小小语言模型与其大型对应物之间的性能差距，相比纯粹依靠模仿。因此，我们的研究凸显了在通过提炼传递复杂语言能力时，使用反馈作为额外维度的潜力。

Abstract

The emergence of large language models (LLMs) has brought to light promising language generation capabilities, particularly in performing tasks like complex reasoning and creative writing. Consequently, distillation

large language models distillation teacher responses small language models creative tasks

发现论文，激发创造

TinyLLM: 从多个大型语言模型中学习一个小型学生

通过知识蒸馏，从多个大型教师语言模型中学习小型学生语言模型 TinyLLM，以解决当前方法存在的知识多样性有限和缺乏丰富的上下文信息等问题，并通过引入上下文示例生成器和 teacher-forcing 链式推理策略来确保合理的推理基于适当情境，从而在两个推理任务的六个数据集上的广泛实验中展示了 TinyLLM 方法的优越性，结果表明尽管模型尺寸较小，但 TinyLLM 可显著优于大型教师语言模型。

Feb, 2024

蒸馏逐步！用更少的训练数据和更小的模型尺寸胜过更大的语言模型

本文介绍一种名为 “Distilling step-by-step” 的新机制，该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型，并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明，相对于 finetuning 和 distillation，本机制使用更少的标注 / 非标注训练样例实现更好的性能；并且相对于 LLMs，使用明显更小的模型尺寸实现更好的性能；作者使用了 only 80% of available data on a benchmark task，就可以使用 770M T5 模型胜过 540B PaLM。

May, 2023

心灵之镜：从大型语言模型中提炼自我评估能力和综合思考

大型语言模型（LLMs）在自然语言处理领域取得了显著的进展，但是考虑到它们的规模和计算需求，将这些模型实际部署在资源受限的环境中面临着巨大的挑战。为了解决这些问题，我们提出了一种双重方法：首先，我们引入了一种将 LLMs 中固有的自我评价能力提取到 SLMs 中的新方法，旨在减少错误推理和幻觉的不利影响。其次，我们建议采用综合的蒸馏过程，结合多种不同的链式思维和自我评价范式，确保更全面、更稳健地将知识转移至 SLMs 中。在三个自然语言处理基准测试上进行的实验表明，我们的方法显著提高了蒸馏 SLMs 的性能，并为开发与人类认知更接近的较小模型指明了方向。

Nov, 2023

认真对待幽默：使用无趣的大型语言模型构建幽默数据集

通过编辑文本，我们研究了大型语言模型（LLMs）是否能够生成用于幽默检测的合成数据。我们对现有的人类数据集进行了基准测试，并展示了当前的 LLMs 在判断幽默性和幽默检测的下游任务中，能够令人印象深刻地去除笑话。我们还将我们的方法扩展到了一个混合编码的英文 - 印地语幽默数据集，发现 GPT-4 的合成数据得到了双语注释者的高评价，并为幽默分类器提供了具有挑战性的对抗性例子。

Feb, 2024

小数据场景中高效自然语言理解的生成 - 蒸馏方法

通过 generation-distillation 训练方法，利用大型 fine-tuned 语言模型生成无标签训练数据，通过知识蒸馏技术将这些数据的知识转移给小型网络，从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距，实现了使用更少的参数（仅为 BERT 的 300 倍）达到与 BERT 可比的性能。

Jan, 2020

婴儿骆驼：从小数据集上训练的教师集合中进行知识蒸馏，无性能惩罚

我们提出了一种解决 BabyLM 挑战的方法，目标是提高语言模型的样本效率。我们在一个有发展潜力的 BabyLM 数据集上训练了一个由 GPT-2 和小型 LLaMA 模型组成的集成模型，然后将其蒸馏成一个小型的 58M 参数 LLaMA 模型，它在性能上超过了两个教师模型以及没有蒸馏训练的类似模型。这表明，蒸馏不仅可以保持教师模型的全部性能，在后者被训练在足够小的数据集上时，还可以超过教师模型的性能，并且比直接训练要表现得更好。

Aug, 2023

机器人走进酒吧：语言模型是否可以作为创意支持工具用于喜剧？对 LLM 的幽默吻合度与喜剧演员的评估

我们采访了二十位职业喜剧演员，他们在爱丁堡艺术节上进行的「AI x 喜剧」三小时工作坊中使用人工智能作为艺术创作的一部分，并进行了在线调查。结果显示使用大型语言模型进行喜剧创作并未成功，与此同时，参与者也提出了关于偏见和审查等伦理问题。本研究拓展了学术界对伤害性言论和「冒犯性」语言之间微妙差异的理解，并讨论了基于社区的价值观对齐和数据所有权的重要性，以构建更适合艺术家需求的人工智能工具。

May, 2024

构建可靠流畅的大型语言模型：在问答系统中引入反馈学习循环

为了解决大型语言模型在引文、正确性和流畅度方面存在的问题，本研究通过构建数据集、引入自动化反馈机制和反馈学习循环，成功提高了 ChatGPT 的引文和流畅度指标，并保持高水平的正确性。

Sep, 2023

混合蒸馏助于小型语言模型更好地进行推理

通过 Mixed Distillation 框架，将大语言模型的 Program-of-Thought 和 Chain-of-Thought 的能力转移到较小模型中，提高较小模型的性能，优于传统蒸馏方法，并在多路径推理中实现了令人印象深刻的准确度表现。

Dec, 2023

子目标蒸馏：提升小型语言代理的方法

通过层次化代理模型和知识蒸馏，将大型语言模型的性能通过转移学习到小型语言模型，在科学世界的多任务交互文本环境中胜过其他大型语言模型方法，从而提高了效率。

May, 2024