Evalverse:大规模语言模型评估的统一和可访问库
介绍了一个名为 FreeEval 的模块化和可扩展框架,用于可靠高效地自动评估大型语言模型,通过统一的架构整合了各种评估方法,并结合人工评估和数据污染检测等元评估技术,实现了评估结果的公平性。
Apr, 2024
通过多轮讨论辅助的 ScaleEval 元评估框架,充分利用多个交流能力的大语言模型代理进行可伸缩元评估,帮助人工标注员判断最有能力的大语言模型作为评估者,从而显著减轻他们的工作量。
Jan, 2024
UltraEval 是一个轻量级、综合、模块化和高效的用户友好的评估框架,通过重新实现模型评估的三个核心组件(模型、数据和度量),允许在统一评估工作流中自由组合不同的模型、任务、提示和度量,并支持多种模型,提供足够的推理加速。
Apr, 2024
提出了一种名为 VisEval 的新的 NL2VIS 基准,该基准通过引入高质量大规模数据集并倡导综合自动化评估方法,揭示了目前研究中普遍存在的挑战并为未来的进一步发展提供了重要的见解。
Jul, 2024
利用大型语言模型进行评估的新方法 “Fusion-Eval” 在 SummEval 数据集上取得了 0.96 的 Spearman 相关性,超过了其他评估方法,在 LLM 评估领域树立了新的标准。
Nov, 2023
本文提出了 LLM-Eval,一种针对使用大型语言模型(LLM)的开放领域对话进行多维自动评估的统一方法。通过设计基于单个提示的评估方法来覆盖会话质量的多个方面,LLM-Eval 可以在单个模型调用中进行。我们对 LLM-Eval 在各种基准数据集上的性能进行了全面评估,表明它相对于最先进的评估方法具有高效性和适应性。同时,该分析还强调了选择适当的 LLM 和解码策略以获得准确评估结果的重要性。LMM-Eval 为评估开放领域对话系统提供了一种多功能且强大的解决方案,可以简化评估过程并在不同场景中提供一致的性能。
May, 2023
在 AI 运维领域中,对于保证信息系统有序和稳定运行,日志分析至关重要。然而,现有大语言模型在日志分析任务中的表现尚未得到充分验证。为此,我们引入了 LogEval,这是一个综合性基准套件,旨在首次评估大语言模型在不同日志分析任务中的能力。这个基准套件包括日志解析、日志异常检测、日志故障诊断和日志摘要等任务。通过对领先的大语言模型进行严格评估,我们展示了不同大语言模型技术对日志分析性能的影响,重点关注自一致性和少样本上下文学习等方面。我们还讨论了与模型量化、中英文问答评估和提示工程相关的发现。这些发现深入了解了大语言模型在多语言环境中的优势和弱点,以及不同提示策略的有效性。通过采用不同任务的各种评估方法,准确衡量了大语言模型在日志分析中的性能,确保了全面的评估。从 LogEval 评估中获得的见解揭示了大语言模型在日志分析任务中的优势和局限性,为研究人员和从业人员提供了宝贵的指导。
Jul, 2024
使用合成任务来评估大型语言模型(LLMs)的研究方法 S3Eval,在 S3Eval 与真实世界基准测试之间存在强相关性,同时揭示了模型性能的一些深度分析和反直觉趋势。
Oct, 2023
本研究通过使用 SummEval 数据集进行一系列分析,证实了大型语言模型作为评估器在以下方面存在偏见和不一致性:(1)体现对低困惑度文本的偏好;(2)显示具有偏见的评分分布;(3)经历多属性判断时的锚定效应。此外,我们分享了配置大型语言模型评估器以减轻这些限制的方法,通过 RoSE 数据集的实验证明了与最先进的大型语言模型评估器相比的改进。
May, 2024
目前缺乏对大型语言模型(LLMs)在心理健康领域能力评估的全面基准。因此,我们填补该空白,并引入了首个适用于心理健康领域特点的全面基准,包括六个子任务、三个维度,系统评估 LLMs 在心理健康领域的能力。我们为每个子任务设计了相应的简明提示,并全面评估了八个先进的 LLMs 使用我们的基准。实验结果不仅展示了当前 LLMs 在心理健康方面的改进空间,还揭示了未来模型优化的潜在方向。
Nov, 2023