等级分数：量化 LLM 在选项选择中的表现

Jun, 2024

等级分数：量化 LLM 在选项选择中的表现

Grade Score: Quantifying LLM Performance in Option Selection

Dmitri Iourovitski

TL;DR本研究引入了 “Grade Score”，这是一种用于评估大型语言模型（LLMs）作为多选题判官时一贯性和公正性的新指标，通过结合熵和模式频率来测量其对次序偏见和选择稳定性的影响，以提供 LLMs 的可靠性和公正性的洞察。研究探索了诸如提示工程和选项抽样策略等技术，以优化 “Grade Score”，并证明了它们提高 LLMs 性能的有效性。结果展示了 LLMs 在提示方面的不同表现，并强调了包含无关选项的积极影响。研究还发现了指示遵循模型中的一种新行为，即其适应针对特定偏见的指示，展示了其适应性。 “Grade Score” 促进了 LLMs 之间的比较，并鼓励不断研究以优化它们的决策过程，具有改善各种应用中它们的可靠性和公正性的潜在影响。所有代码可在 GitHub 上获得。

Abstract

This study introduces the "grade score", a novel metric designed to evaluate the consistency and fairness of Large Language Models (LLMs) when used as multiple-choice judges with respect to order bias and

grade score large language models (llms)order bias choice consistency prompt engineering

发现论文，激发创造

TrustScore: 无需参考的 LLM 响应可信度评估

本研究提出了基于行为一致性概念的 TrustScore 框架，用于评估大型语言模型（LLMs）的响应与其内在知识的一致性，同时能够与事实核实方法无缝集成，实现与人类判断强相关性的结果。

Feb, 2024

语言模型对多项选择任务的预测在评分方法变化下不稳定

该研究系统比较了多个选择题语言模型的不同预测方法，包括根据生成的回答进行评分、基于概率的得分方法、李克特量表风格的评分方法和嵌入相似度。通过对实用语言解释的案例研究发现，语言模型的预测结果在方法选择的变化下不具有稳健性，无论是在单个语言模型内部还是在不同语言模型之间。由于这种变异性导致研究人员在报告结果时存在显著的自由度，了解这种变异性对于确保结果的稳健性和研究诚信至关重要。

Mar, 2024

大型语言模型是否能胜任？一项实证研究评估 LLM 评分 K-12 教育中的简答题能力

这篇论文讨论了使用大型语言模型（LLMs）对开放文本短答案问题进行评分的实验，研究了不同组合的 GPT 版本和提示工程策略在标记真实学生答案时的性能表现，并发现 GPT-4 在这方面表现良好与人类级别接近。这一研究对于支持 K-12 教育中的低风险形成性评估任务具有重要意义。

May, 2024

大型语言模型对多项选择题选项顺序的敏感性

在这篇论文中，我们研究了大型语言模型在多项选择题中的鲁棒性，发现其对选项顺序敏感，并存在位置偏差的问题。通过详细的分析和实验证明，通过调整选项的位置策略可以缓解或者放大模型的偏见，并提出了校准预测的两种方法，成功提高了不同模型和评估指标的性能。

Aug, 2023

大型语言模型中的偏差定量认证

大型语言模型（LLMs）可以产生展现社交偏见并支持刻板印象的回答。然而，传统的基准测试无法充分评估 LLM 偏见，因为它无法扩展到大量的提示集，并且没有提供保证。因此，我们提出了一种新的认证框架 QuaCer-B（Bias 的定量认证），它提供了在大量提示集下从目标 LLMs 获取无偏回答的形式保证。证书包括从分布中采样的包含敏感属性的任何提示集获得有偏回答的概率的高置信度上限。我们通过在给定分布中随机令牌序列、手动越狱的混合和 LLM 嵌入空间中的越狱的提示上对 LLM 的偏见进行证明。我们使用 QuaCer-B 对流行的 LLMs 进行认证，并呈现关于其偏见的新见解。

May, 2024

超越性能：量化和减轻 LLMs 中的标签偏差

通过评估不同方法对模型预测中的标签偏倚进行量化研究，我们提出了一种专门用于少样本提示的新型标签偏倚校准方法，其在提高性能和减轻标签偏倚方面优于最近的校准方法。我们的结果强调大型语言模型中标签偏倚对其可靠性的影响。

May, 2024

SemScore：基于语义文本相似度的指导调整 LLMs 的自动评估

提出一种称为 SemScore 的直接将模型输出与目标响应进行语义文本相似度比较的简单但非常有效的评估度量，对于评估调整教学语言模型在人工评估方面具有优势。

Jan, 2024

iScore: 通过视觉分析解释语言模型自动评分摘要

使用 iScore 的交互式可视化分析工具，我们解决了评估大型语言模型在自动评分和信任建立方面的设计挑战，并通过与学习工程师的合作验证了该方法的有效性。

Mar, 2024

基于矩阵熵的大型语言模型评估

通过信息论和几何原理，我们引入了矩阵熵作为一种新的度量标准，以量化大型语言模型中的数据压缩能力，展示其在单模态和多模态设置中的适用性，并发现它可以作为传统损失缩放定律的补充。同时，我们基于矩阵熵提出了一种评估方法，用于评估对齐质量，并发现现代大型多模态模型表现出良好的对齐性能。

Jan, 2024

关于大型语言模型（LLM）的脑科学评分形状研究

利用大型语言模型（LLMs）和人脑 / 神经系统之间的功能相似性评估指标 “Brainscore”，通过构建人类 fMRI 数据和多个 LLMs 及其未训练对象的拓扑特征，进行了线性回归模型训练和统计分析，揭示了在多个感兴趣脑区和半球中解释现有 brainscores 的独特特征组合，对推进可解释的机器学习（iML）研究具有重要意义。这项研究是首次尝试在这个跨学科领域理解这一创新指标 brainscore 的努力。

May, 2024