通过将令牌生成视为分类融合来打破 LLM 社区的层级限制

Jun, 2024

通过将令牌生成视为分类融合来打破 LLM 社区的层级限制

Breaking the Ceiling of the LLM Community by Treating Token Generation as a Classification for Ensembling

Yao-Ching Yu, Chun-Chih Kuo, Ziqi Ye, Yu-Cheng Chang, Yueh-Se Li

TL;DR利用生成式语言模型（GaC），将多个大型语言模型（LLM）集成在一起，在多项基准测试中突破了现有的性能限制；此外，仅集成关键标记也表现出更好的性能和更低的延迟。

Abstract

ensembling multiple models has always been an effective approach to push the limits of existing performance and is widely used in classification tasks by simply averaging the →

ensembling large language model token-level probability classification key tokens

发现论文，激发创造

一个简单而高效的集成方法用于 AI 生成文本检测

近期大型语言模型（LLMs）在各种风格和体裁的文本生成方面展示了惊人的能力。然而，这种能力容易被滥用，如虚假新闻生成、垃圾电子邮件创建以及在学术作业中的误用。因此，建立能够区分人工生成文本和人类作者文本的自动化方法至关重要。本文提出了一种简单而高效的解决方案，通过集成多个组成 LLM 的预测来解决这个问题。相较于以往基于困惑度或使用众多 LLM 的集成方法，我们的简化集成方法仅使用两个组成 LLM 即可达到可比较的性能。在四个生成文本分类基准数据集上进行的实验证明，与以往的最先进方法相比，性能提升范围在 0.5％到 100％之间。我们还研究了来自各个 LLM 的训练数据对模型性能的影响。结果表明，将商业限制的生成预训练变压器（GPT）数据替换为其他开放语言模型生成的数据，如 Falcon、Large Language Model Meta AI（LLaMA2）和 Mosaic Pretrained Transformers（MPT），是开发生成文本检测器的可行替代方法。此外，为了展示零 - shot 推广能力，我们在一个英语散文数据集上进行了实验，结果表明我们的集成方法可以有效处理新数据。

Nov, 2023

利用深度并行协作实现异构大型语言模型的集成学习

我们提出了一个训练免费的集成框架 DEEPEN，通过平均不同大型语言模型输出的概率分布来解决现有方法中的词汇差异问题，并在涉及主观考试、推理和知识问答的六个流行基准测试中获得了一致的改进效果。

Apr, 2024

推进文本分类的 LLM 容量极限

基于自适应提升框架的 RGPT 模型通过循环集成多个强基学习器，调整训练样本的分布并迭代地微调大语言模型，形成专业化的文本分类模型，在多个基准测试中表现明显优于其他最先进模型，并超越了人类分类能力。

Feb, 2024

通过隐式分类将令人印象深刻的 LMM 生成文本识别为令牌预测

本文介绍了一种新颖的方法，用于识别可能参与文本生成的大规模语言模型（LLMs）。我们采用了一种将分类任务重新构建为下一个标记预测任务的方法，并直接微调基本语言模型来执行此任务。我们使用 Text-to-Text Transfer Transformer（T5）模型作为实验的基础，并将我们的方法与利用隐藏状态进行分类的更直接方法进行了比较。评估结果显示了我们的方法在文本分类任务中的卓越性能，突出了其简单性和效率。此外，对我们模型提取的特征进行的可解释性研究揭示了其能够在没有显式分类器的情况下区分不同 LLMs 之间的独特写作风格。我们还收集了一个名为 OpenLLMText 的数据集，其中包含来自人类和 LLMs（包括 GPT3.5、PaLM、LLaMA 和 GPT2）的约 340k 个文本样本。

Nov, 2023

使用大型语言模型进行翻译假设集成的实证研究

通过对多个大型语言模型 (LLMs) 进行假设集成的研究，对于基于 LLM 的机器翻译问题，我们探讨了如何提高生成文本的质量。我们尝试了多种假设集成技术，如 ChatGPT、LLaMA 和 Alpaca，并进行了综合研究，包括生成假设的方法（多个提示、温度采样和束搜索）以及生成最终翻译的策略（基于指令、基于质量的重新排序和最小贝叶斯风险解码）。我们的研究结果表明，MBR 解码是一种非常有效的方法，使用少量样本可以提高翻译质量，指令调整对假设的多样性和采样温度之间的关系具有很大影响。

Oct, 2023

基于集成 LLM 方法的生成式人工智能文本分类

本文提出了一种集成神经模型以检测大型语言模型生成的语言，并对模型进行归因的方法。

Sep, 2023

通过组合小语言模型提炼大型语言模型

我们提出了一种简单易行的方法，通过将大型语言模型（LLMs）与良性和小型语言模型（SLMs）集成，从未经筛选的数据的负面影响中净化 LLMs，以提高其性能并减轻版权侵权、数据污染和隐私侵犯等问题。经过综合实验证明，该方法能有效保持 LLMs 的性能。

Feb, 2024

通过期望值计算改进生成式语言模型的阅读理解能力中未使用信息的词汇概率分布

LLM 文本解码是感知 LLM 质量的关键组成部分。我们展示了两个实验，证明通过操纵记号概率可以改进解码方法。首先，我们在 SummEval 摘要评分数据集上测试了几个 LLM，以衡量阅读理解能力。我们将得分与下一个记号分布的预期值进行比较，通过放大温度来缩放 logits 以增加得分的熵。这使得在 SummEval 上性能得到了显著提高（通过与人类判断的相关性来衡量）。对于 7B Mistral，我们从 6-8% 提高到 13-28%，对于 Mixtral，我们从 20%-46% 提高到 37%-56%，超过了 GPT 4 0314 在两个度量指标上的结果。提升的一部分似乎与位置偏置相关。其次，我们使用基于概率的树采样算法来检查给定提示的所有最可能生成的结果。

Jun, 2024

应用集成方法进行模型无关的机器生成文本检测

通过应用集成方法来检测大语言模型（LLM）产生的机器生成文本的问题，并找到简单的 DetectGPT 子模型输出的摘要统计数据在保持其零 - shot 性的同时获得 0.73 的 AUROC（相对于 0.61），受监督学习方法可以将准确性提升到 0.94 的 AUROC，但需要一个训练数据集，这表明进一步推广的可能性以创建高准确度、不依赖模型的机器生成文本检测器。

Jun, 2024

大型语言模型和机器翻译的即时融合

我们在相同任务和输入上提出了一个机器翻译模型和 LLM 的即时集成方法。我们在 4 个语言对（两个方向）上进行了实验，并且数据量有所不同。我们发现，稍微差一些的 LLM 可以提高 NMT 模型的翻译质量，并且与 LLM 集成可以产生比两个更强的机器翻译模型集成更好的翻译结果。我们结合了 LLM 提示的各种技术，如上下文学习和翻译上下文。

Nov, 2023