Jun, 2024

通过期望值计算改进生成式语言模型的阅读理解能力中未使用信息的词汇概率分布

TL;DRLLM 文本解码是感知 LLM 质量的关键组成部分。我们展示了两个实验,证明通过操纵记号概率可以改进解码方法。首先,我们在 SummEval 摘要评分数据集上测试了几个 LLM,以衡量阅读理解能力。我们将得分与下一个记号分布的预期值进行比较,通过放大温度来缩放 logits 以增加得分的熵。这使得在 SummEval 上性能得到了显著提高(通过与人类判断的相关性来衡量)。对于 7B Mistral,我们从 6-8% 提高到 13-28%,对于 Mixtral,我们从 20%-46% 提高到 37%-56%,超过了 GPT 4 0314 在两个度量指标上的结果。提升的一部分似乎与位置偏置相关。其次,我们使用基于概率的树采样算法来检查给定提示的所有最可能生成的结果。