指导压缩使得大型语言模型成为高效的零 - shot 排序器
本文介绍了一种新颖的方法,可以将 LLMs 高效地提炼成更小的、面向特定应用的模型,显著降低运营成本和人工劳动。该方法利用 LLMs 的推理能力为无标签数据生成标签和自然语言解释,从而在有限数据和计算资源情况下增强模型的微调和提炼效果。其中关键贡献包括使用零样本提示获取教师模型的解释,减少手工制作的小样本示例的需求,并降低令牌数,这直接转化为主要技术公司 LLM API 的按令牌计费模式下的成本节约。此外,本文还研究了解释特性对提炼效率的影响,并证明了即使在整个数据集上未应用理由增强时也几乎不会导致性能损失,从而进一步减少了令牌数量。这项研究是朝向最小化人工干预、高效训练特定任务模型的一步,提供了大幅降低成本并保持甚至增强性能的可能性。
Mar, 2024
大型语言模型在零样本文档排序任务中展现出令人印象深刻的效果,本研究通过在一致的实验框架下全面评估 Pointwise、Pairwise 和 Setwise 提示方法,考虑模型大小、令牌消耗、延迟等因素,找出各方法之间存在的效果和效率之间的权衡。我们发现,尽管 Pointwise 方法在效率上得分较高,但效果较差;相反,Pairwise 方法在效果上表现出色,但计算开销较大。为了进一步提高基于大型语言模型的零样本排序的效率,我们提出了一种新颖的 Setwise 提示方法,通过减少排名过程中的 LLM 推理次数和提示令牌的消耗量,显著提高了基于大型语言模型的零样本排序的效率。我们使用 TREC DL 数据集和 BEIR 零样本文档排序基准测试了我们的方法,实证结果表明我们的方法在大幅减少计算成本的同时,同时保持了较高的零样本排序效果。
Oct, 2023
本文介绍一种名为 “Distilling step-by-step” 的新机制,该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型,并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明,相对于 finetuning 和 distillation,本机制使用更少的标注 / 非标注训练样例实现更好的性能;并且相对于 LLMs,使用明显更小的模型尺寸实现更好的性能;作者使用了 only 80% of available data on a benchmark task,就可以使用 770M T5 模型胜过 540B PaLM。
May, 2023
任务感知课程规划的指导下,使用动态难度调整的多轮精馏框架 TAPIR 提供平衡的任务分布,通过升级难度水平逐步提升学生 LLM 的能力,并经过两个广泛认可的基准测试验证,结果表明使用我们的方法及较少的训练数据训练的学生 LLMs 在复杂任务中(如逻辑推理和代码生成)优于较大的经过指导调整的模型和强大的精馏基准线。
May, 2024
此研究旨在探究大型语言模型在推荐系统中的排名能力,通过采用提示模板设计和引入特定策略,研究发现大型语言模型在候选物品的零 - shot 排名上有着很好的表现,但是若考虑历史互动的顺序、位移等因素,不同的提示和启发方法能够对大型语言模型的表现产生影响。
May, 2023
通过使用大型语言模型 (LLMs) 生成大量合成的查询,可以在不使用大量标记的数据的情况下,有效地优化实现信息检索任务,同时消除因为领域的转变而导致真实世界应用效力降低的问题。
Mar, 2023
通过 generation-distillation 训练方法,利用大型 fine-tuned 语言模型生成无标签训练数据,通过知识蒸馏技术将这些数据的知识转移给小型网络,从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距,实现了使用更少的参数(仅为 BERT 的 300 倍)达到与 BERT 可比的性能。
Jan, 2020
本研究提出了一种方法,将大型语言模型(LLMs)的知识提炼为一个更小、更高效且准确的神经网络,以实现在资源受限设备上部署这些模型的挑战。我们的方法包括使用 LLM 的预测概率训练较小的学生模型,作为教师模型,通过专门设计的损失函数来学习 LLM 的输出概率,确保学生模型能够准确模仿教师模型的性能。通过对包括 6,684 个学生撰写的科学问题回答及其他数据集的测试,我们将性能与原始神经网络(NN)模型进行了比较,结果显示对于 7T 数据集,NN 模型和提炼的学生模型的准确率与教师模型相当;然而,其他数据集显示 NN 模型的准确率显著较低(平均 28%),然而我们的提炼模型仍然能够比 NN 模型获得更高 12% 的准确率。此外,学生模型的参数大小为 0.1M 至 0.02M,相较于原始输出模型大小减小了 100 倍和 10 倍。该研究的重要性在于其为自动评分在典型教育环境中的运用提供了潜力。
Dec, 2023
在 TREC 网络搜索数据集和 MIRACL 跨语言数据集上,使用无需特定任务训练数据的 Listwise Reranker with a Large Language Model (LRL) 可以作为第一阶段和最终阶段的重新排序方法,在多层文本排序任务中取得了强大的效果。
May, 2023
本研究针对最近的大型语言模型探究了原本的零样本排名效果,发现这些仅基于非结构化文本数据进行预训练且没有经过监督指导微调的模型具备强大的零样本排名能力。此外,我们还提出了一个新颖的最先进排名系统,将基于大型语言模型的查询似然模型与混合式零样本检索器相结合,无论是在零样本还是少样本场景下都表现出卓越的效果。我们在 this https URL 上公开了我们的代码库。
Oct, 2023