语言模型整体评估

Nov, 2022

Holistic Evaluation of Language Models

Percy Liang, Rishi Bommasani, Tony Lee, Dimitris Tsipras, Dilara Soylu...

TL;DR我们提出了综合评估语言模型 (HELM) 来提高人们对这一基础技术的透明度，采用多指标方法测量 16 个核心场景的 7 个指标，此外还进行了 7 个有针对性的评估，总结了 25 个高层次结论，并公开了所有模型和完成的原始数据。

Abstract

language models (LMs) are becoming the foundation for almost all major language technologies, but their capabilities, limitations, and risks are not well understood. We present Holistic evaluation of

language models metrics evaluation transparency multi-metric approach

发现论文，激发创造

高效基准测试（语言模型）

使用 LM 评估的计算成本的智能减少，提高效率，保证可靠性，从而显著降低计算量并保持基准可靠性，通常减少计算量 100 倍或更多。

Aug, 2023

文本到图像模型的整体评估

对于最近的文本到图像模型，我们缺乏对其能力和风险的全面定量理解。为了填补这个空白，我们引入了一个新的基准，即文本到图像模型的整体评估（HEIM）。我们鉴定了 12 个方面，包括文本与图像的对齐、图像质量、美感、原创性、推理能力、知识、偏见、毒性、公平性、鲁棒性、多语性和效率。我们在这个基准上评估了 26 个最先进的文本到图像模型，结果表明没有单一模型在所有方面都表现出色，不同模型展示了不同的优势。我们透明地发布了生成的图像和人工评估结果。

Nov, 2023

TEL'M: 语言模型的测试和评估

语言模型在某些任务上表现出色，但在其他任务上却遭受了严重的失败。本文提出了一种基于测试和评估的语言模型（TEL'M）作为一种原则性方法，用于评估当前和未来的语言模型在高价值商业、政府和国家安全应用领域的价值。我们相信这种方法可以被应用于其他人工智能技术中，以实现 “工业化” 人工智能的更大目标。

Apr, 2024

评估大型语言模型：综述

该研究综述了大型语言模型的评估方法，并提出了知识与能力评估、对齐评估和安全评估三个主要方面的评估方法，以及涵盖能力、对齐、安全和适用性的综合评估平台的构建。希望该综述能够推动对大型语言模型评估的更多研究兴趣，以促进负责任发展和最大化社会利益，同时最小化潜在风险。

Oct, 2023

基于个体特定数据的健康多模态 LLM

该研究通过开发一种名为 HeLM 的框架，使多模态大型语言模型 (LLMs) 能够使用高维临床模态来估计潜在疾病风险，并且在使用英国生物银行的数据进行验证时，HeLM 能够有效地利用人口统计学、临床特征和高维时间序列数据来估计疾病风险。

Jul, 2023

对大型语言模型评估的调查

大语言模型（LLMs）的评估方法是研究这些模型的重要组成部分，这篇综述介绍了评估 LLMs 的方法和维度，并总结了 LLMs 在不同任务中的成功案例、失败案例和未来挑战。

Jul, 2023

利用大型语言模型进行自然语言生成评估：综述

自然语言生成（NLG）评估中引入大型语言模型（LLM）为评估生成内容质量提供了新的途径，本文提供了对利用 LLM 进行 NLG 评估的全面概述，包括组织现有基于 LLM 的评估指标的一致性分类法、批判性评估不同的 LLM 方法以及比较其在评估 NLG 输出中的优势和局限性，讨论未解决的挑战，并推动更公平、更先进的 NLG 评估技术。

Jan, 2024

揭示以度量为重点的 LLM 评估：挑战与解决方案

NLP 中，大型语言模型（LLMs）的成功推动了其显著突破，本文对 LLM 的评估方法进行了全面探索，提供了选择和解读已使用度量标准的见解，并采用最新的生物医学 LLM 进行了这些度量标准的应用比较，旨在为研究人员提供一个实用的指南，推进对这些大型语言模型的理解和应用。

Apr, 2024

核心竞争力视角下的大型语言模型评估调查

从预训练语言模型（PLM）到大型语言模型（LLM），自然语言处理（NLP）领域已经取得了明显的性能提升和广泛的实际应用。为了解决评估 LLM 的困难，这篇论文调查了关于 LLM 评估的多篇论文，并总结了 LLM 的四个核心能力，包括推理、知识、可靠性和安全性。在这个能力结构下，相似的任务被合并以反映相应的能力，而新的任务也可以轻松地添加到系统中。最后，给出了关于 LLM 评估未来方向的建议。

Aug, 2023

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023