LLM-Blender：用成对排名和生成融合集合大型语言模型

ACLJun, 2023

LLM-Blender：用成对排名和生成融合集合大型语言模型

LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion

Dongfu Jiang, Xiang Ren, Bill Yuchen Lin

TL;DR本文介绍了使用 LLM-Blender 集成多个开源大型语言模型（LLMs）的框架，并展示了其在混合指令数据集上相对于个体 LLMs 和基线方法的显著性能优势。

Abstract

We present llm-blender, an ensembling framework designed to attain consistently superior performance by leveraging the diverse strengths of multiple open-source large language models (LLMs). Our framework consist

llm-blender ensemble framework language models pairranker genfuser

发现论文，激发创造

大型语言模型和机器翻译的即时融合

我们在相同任务和输入上提出了一个机器翻译模型和 LLM 的即时集成方法。我们在 4 个语言对（两个方向）上进行了实验，并且数据量有所不同。我们发现，稍微差一些的 LLM 可以提高 NMT 模型的翻译质量，并且与 LLM 集成可以产生比两个更强的机器翻译模型集成更好的翻译结果。我们结合了 LLM 提示的各种技术，如上下文学习和翻译上下文。

Nov, 2023

利用深度并行协作实现异构大型语言模型的集成学习

我们提出了一个训练免费的集成框架 DEEPEN，通过平均不同大型语言模型输出的概率分布来解决现有方法中的词汇差异问题，并在涉及主观考试、推理和知识问答的六个流行基准测试中获得了一致的改进效果。

Apr, 2024

大型语言模型的知识融合

通过知识融合的方法，将预先训练的大型语言模型相互结合，以提升目标模型的性能表现，实现在推理、常识与代码生成等多种能力上的改进。

Jan, 2024

FuseChat：聊天模型的知识融合

通过知识融合技术将结构和规模不同的源语言模型（LLM）融合为具有相同结构和大小的目标 LLM，从而实现对聊天 LLM 的融合，该方法在聊天领域中的实验结果表明其在多个尺度上优于其他聊天 LLM 模型，并可达到类似于 Mixtral-8x7B-Instruct 的性能水平。

Feb, 2024

LLM-RankFusion：基于 LLM 的排名中内在不一致问题的缓解

使用语言模型比较并排序排名的矛盾问题，我们提出了一种使用 LLM-RankFusion 的方法，它有效地减少了排序的不一致性，提高了排名质量。

May, 2024

使用大型语言模型进行翻译假设集成的实证研究

通过对多个大型语言模型 (LLMs) 进行假设集成的研究，对于基于 LLM 的机器翻译问题，我们探讨了如何提高生成文本的质量。我们尝试了多种假设集成技术，如 ChatGPT、LLaMA 和 Alpaca，并进行了综合研究，包括生成假设的方法（多个提示、温度采样和束搜索）以及生成最终翻译的策略（基于指令、基于质量的重新排序和最小贝叶斯风险解码）。我们的研究结果表明，MBR 解码是一种非常有效的方法，使用少量样本可以提高翻译质量，指令调整对假设的多样性和采样温度之间的关系具有很大影响。

Oct, 2023

ClusterLLM：将大语言模型用作文本聚类的指南

介绍了 ClusterLLM，一种新颖的文本聚类框架，它利用指导调整的大型语言模型（例如 ChatGPT）的反馈。通过与传统的无监督方法相比较，ClusterLLM 具有两个有趣的优势：（1）即使其嵌入不可访问，它也具有 LLM 的紧急能力；（2）通过文本指令和 / 或少量注释数据，他可以理解用户在聚类方面的偏好。

May, 2023

一个简单而高效的集成方法用于 AI 生成文本检测

近期大型语言模型（LLMs）在各种风格和体裁的文本生成方面展示了惊人的能力。然而，这种能力容易被滥用，如虚假新闻生成、垃圾电子邮件创建以及在学术作业中的误用。因此，建立能够区分人工生成文本和人类作者文本的自动化方法至关重要。本文提出了一种简单而高效的解决方案，通过集成多个组成 LLM 的预测来解决这个问题。相较于以往基于困惑度或使用众多 LLM 的集成方法，我们的简化集成方法仅使用两个组成 LLM 即可达到可比较的性能。在四个生成文本分类基准数据集上进行的实验证明，与以往的最先进方法相比，性能提升范围在 0.5％到 100％之间。我们还研究了来自各个 LLM 的训练数据对模型性能的影响。结果表明，将商业限制的生成预训练变压器（GPT）数据替换为其他开放语言模型生成的数据，如 Falcon、Large Language Model Meta AI（LLaMA2）和 Mosaic Pretrained Transformers（MPT），是开发生成文本检测器的可行替代方法。此外，为了展示零 - shot 推广能力，我们在一个英语散文数据集上进行了实验，结果表明我们的集成方法可以有效处理新数据。

Nov, 2023

LLMRec：在推荐任务上对大规模语言模型进行基准测试

通过 LLMRec，我们对各种推荐任务对多个常用的 LLM 模型进行了基准测试，发现 LLM 模型在准确性任务中表现中等，但在可解释性任务中与最先进的方法相比具有相当的性能，并通过定性评估进一步验证了生成内容的质量和合理性。

Aug, 2023

使用 LLMs 的 Pairwise 比较进行零样本自然语言生成评估

通过用自然语言生成技术输出的对比评估方法来检验大型自然语言模型的表现，使得在不依靠特定域和属性情况下进行评估成为可能。

Jul, 2023