通过期望值计算改进生成式语言模型的阅读理解能力中未使用信息的词汇概率分布

Jun, 2024

通过期望值计算改进生成式语言模型的阅读理解能力中未使用信息的词汇概率分布

Unused information in token probability distribution of generative LLM: improving LLM reading comprehension through calculation of expected values

PDF

Krystian Zawistowski

TL;DRLLM 文本解码是感知 LLM 质量的关键组成部分。我们展示了两个实验，证明通过操纵记号概率可以改进解码方法。首先，我们在 SummEval 摘要评分数据集上测试了几个 LLM，以衡量阅读理解能力。我们将得分与下一个记号分布的预期值进行比较，通过放大温度来缩放 logits 以增加得分的熵。这使得在 SummEval 上性能得到了显著提高（通过与人类判断的相关性来衡量）。对于 7B Mistral，我们从 6-8% 提高到 13-28%，对于 Mixtral，我们从 20%-46% 提高到 37%-56%，超过了 GPT 4 0314 在两个度量指标上的结果。提升的一部分似乎与位置偏置相关。其次，我们使用基于概率的树采样算法来检查给定提示的所有最可能生成的结果。

Abstract

llm text decoding is key component for perceived LLM quality. We demonstrate two experiments showing that decoding methods could be improved by manipulation of token probabilities. First, we test few LLM on

llm text decoding token probabilities greedy decoding summeval reading comprehension

发现论文，激发创造

基于熵指导的外推解码方法提升大型语言模型中的事实准确性

大型语言模型 (LLMs) 具备令人印象深刻的自然语言处理能力，但存在虚构结果的问题。最近的研究关注于解码技术，通过利用 LLMs 的分层表示技术及在推理过程中操纵预测分布，提高真实性。本文通过超出最后一层的关键标记概率外推和基于层次熵的下层选择，解耦选择过程与最后一层之间的关系，实验结果显示非常好的性能，并在多个数据集上大幅领先，分析结果表明不同类型的提示需要不同的选择策略。

Apr, 2024

基于熵的检索增强大语言模型的解码

通过熵考虑引导的新型训练免耦合解码方法，提高了检索辅助的大型语言模型在从上下文中提取相关信息时的可靠性，解决了噪音干扰问题。与模型内部知识的高熵分布相对比，对检索得到的低熵集成分布进行对比解码，确保更多重视可靠的外部信息，实验证明了该方法的卓越性能。

Jun, 2024

超越概率：揭示大型语言模型评估中的不一致性

使用大型语言模型（LLMs）进行多项选择题（MCQs）的实证研究表明，概率评估方法在生成预测方面存在内在局限性，与当前评估框架通常基于输出概率而非直接生成回应的计算限制相关，结果强调了 LLMs 评估方法的有效性和未来研究的启示。

Feb, 2024

有限制的教师监督下的解码需要理解何时信任教师

发展一种能够有效聚合 sLLM 和 LLM 在初始度上的预测结果以便后续由 sLLM 生成的标记能更准确影响，通过对 sLLM 的置信度自适应性地超信任或忽略 LLM 的预测，我们证明我们的方法在各种模型和数据集上提供了一致的改进。

Jun, 2024

从解码到元生成：大型语言模型的推理时间算法

通过对大型语言模型的研究，发现在训练过程中提高计算能力可以取得更好的结果，然而对于推断阶段提高计算能力的好处却没有得到足够的关注。本文调查了推断阶段的几种方法，包括基于令牌级别的生成算法、元生成算法和高效生成方法，并从传统自然语言处理、现代大型语言模型和机器学习系统的角度统一了观点。

Jun, 2024

自回归之火：通过它们所训练解决的问题来理解大型语言模型

大语言模型的广泛应用使得识别它们的优势和局限性变得重要。我们主张，为了全面理解这些系统，我们需要考虑它们在训练中解决的问题：互联网文本的下一个词预测。通过认识到这个任务所带来的压力，我们可以对大语言模型采用的策略进行预测，从而推断它们的成功或失败。这种方法，我们称之为目的论方法，使我们能够确定三个因素，我们假设这些因素会影响大语言模型的准确性：执行任务的概率、目标输出的概率和提供的输入的概率。我们预测，当这些概率较高时，大语言模型的准确性会更高，而当概率较低时，即使在确定性环境下，概率也不应该起作用。为了验证我们的预测，我们对两个大语言模型（GPT-3.5 和 GPT-4）进行了十一项任务的评估，我们找到了强有力的证据表明大语言模型受到我们假设的概率影响的方式。在许多情况下，实验揭示了令人惊讶的失效模式。例如，当输出是高概率单词序列时，GPT-4 解码简单密码的准确率为 51%，但当输出是低概率时，准确率为 13%。这些结果表明 AI 从业者在低概率情况下使用大语言模型时需要谨慎。更广泛地说，我们得出结论，我们不应该把大语言模型评估为人类，而应该把它们看作一类独特的系统 —— 这类系统经过了自己特定的压力塑造。

Sep, 2023

第一位知道的人：令牌分配如何揭示大型视觉语言模型中的隐藏知识？

大型视觉 - 语言模型（LVLMs）在理解和回应人类指令时偶尔生成幻觉或有害内容。本研究利用线性探测方法揭示 LVLMs 输出层的隐藏知识，证明首个令牌的逻辑回归分布包含足够信息以决定是否回应指令，包括识别无法回答的视觉问题、防御多模态越狱攻击和识别欺骗性问题。这种隐藏知识在响应生成过程中逐渐丧失。然后，我们提出了一个简单的解码策略来改善生成的内容。在实验中，我们发现几个有趣的观察结果：首先，CLIP 模型已经具备解决这些任务的强信号，表明现有数据集存在潜在的偏见。其次，利用首个逻辑回归分布在另外三项任务上观察到性能提升，包括指示数学求解的不确定性、减轻幻觉和图像分类。最后，简单微调 LVLMs 可以改善模型的性能，但仍不及线性探测在这些任务上的表现。

Mar, 2024

利用大型语言模型作为参考学习自动摘要

本文提出了一种新的学习范式，考虑到 LLMS 是常用摘要数据集中的参考标准，用对比学习和 LLM 作为摘要质量评估器进行摘要训练方法。实验证明，用 GPTScore 和 GPTRank 两种 LLM 计分方式训练出来的较小的摘要模型，其性能可以与参考的 LLM 相媲美，通过访问 LLMS 它只需要很小的预算。

May, 2023

通过自适应解码改善开放式文本生成

当前语言模型以概率分布逐词解码文本，本研究引入了自适应解码机制，使语言模型能够在生成过程中动态地确定合理的候选集。实验结果显示我们的方法在故事生成任务中实现了更高的 MAUVE 和多样性，同时保持了一定的连贯性，凸现了其优越性。

Feb, 2024

大型语言模型中自我评估提高选择性生成

使用大型语言模型进行自我评估可以提高生成内容的准确性，并与生成内容的整体质量更好地相关。

Dec, 2023