提升LLMs的信任度：比较和解释LLMs的算法

Jun, 2024

提升LLMs的信任度：比较和解释LLMs的算法

Enhancing Trust in LLMs: Algorithms for Comparing and Interpreting LLMs

Nik Bear Brown

TL;DR评估技术在提高大规模语言模型（LLM）的可信度和理解性方面起到了至关重要的作用，通过算法方法和评估指标来评估LLM的性能，发现其弱点，并引导其发展以实现更可信赖的应用。

Abstract

This paper surveys evaluation techniques to enhance the trustworthiness and understanding of large language models (LLMs). As reliance on LLMs grows, ensuring their reliability, fairness, and transparency is cruc

发现论文，激发创造

大型语言模型能否替代人类评估？

本文介绍了使用大型语言模型（LLM）代替人类评估来评估人工智能生成的文本的潜力，探索了LLM对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果，并发现LLM评估结果与人类专家的评估结果保持一致。

May, 2023

对大型语言模型评估的调查

大语言模型（LLMs）的评估方法是研究这些模型的重要组成部分，这篇综述介绍了评估LLMs的方法和维度，并总结了LLMs在不同任务中的成功案例、失败案例和未来挑战。

Jul, 2023

值得信赖的LLM：评估大型语言模型的对齐性的调查和指南

为了确保大型语言模型在实际应用中与人类意图保持一致，本研究介绍了对LLM值得信赖性进行评估时需要考虑的关键维度，包括对LLM的可靠性、安全性、公平性、抵抗滥用性、可解释性和推理性、遵守社会规范以及鲁棒性进行调查研究。通过对几个广泛使用的LLM进行测试，研究结果表明，总体上，更加符合人类意图的模型在整体可信度方面表现更好，但是模型对不同可信度类别的影响程度有所不同，这凸显了在LLM对齐方面进行更加细致的分析、测试和不断改进的重要性。本研究旨在为该领域的从业人员提供有价值的见解和指导，理解和解决这些问题对于在各种应用中实现可靠和符合伦理的LLM部署至关重要。

Aug, 2023

PRE: 基于同行评审的大型语言模型评估器

通过同行评审机制，我们提出了一种能够自动评估大型语言模型的新框架，用于解决评估成本高、泛化能力低以及评估中的偏见等问题。我们在文本摘要任务上进行了广泛实验，结果表明使用单一语言模型评估存在偏见，并证明了我们的同行评审机制的有效性。

Jan, 2024

大型语言模型是否可信用于评估？通过代理辩论对大型语言模型作为评估者进行可扩展元评估

通过多轮讨论辅助的 ScaleEval 元评估框架，充分利用多个交流能力的大语言模型代理进行可伸缩元评估，帮助人工标注员判断最有能力的大语言模型作为评估者，从而显著减轻他们的工作量。

Jan, 2024

LLM开放环境下的对等评审: 自动评估方法

通过使用同行评审机制来自动测量大型语言模型的能力并评估其性能，我们提出了一种新颖的无监督评估方法，并通过为每个语言模型分配可学习的能力参数来调整最终排名，以最大化每个语言模型的能力和得分的一致性，并使用PEN、CIN和LIS三个指标来评估与人工评级的一致性差距，实验证明了该方法的有效性。

Feb, 2024

揭示以度量为重点的LLM评估：挑战与解决方案

NLP中，大型语言模型（LLMs）的成功推动了其显著突破，本文对LLM的评估方法进行了全面探索，提供了选择和解读已使用度量标准的见解，并采用最新的生物医学LLM进行了这些度量标准的应用比较，旨在为研究人员提供一个实用的指南，推进对这些大型语言模型的理解和应用。

Apr, 2024

可解释性检查表在评估员LLMs中的盲点发现

通过引入有针对性的扰动来测试评估者LLMs的能力，研究发现当前评估者LLMs存在显著不足，并强调在实际应用中需谨慎使用。

Jun, 2024

超越指标：对大型语言模型评估框架变异性的批判性分析

本文探讨了当前大型语言模型评估框架的差异性和不足之处，填补了评估方法多样性所带来的研究空白。通过对不同评估方法的深入分析，提出了更为标准化和全面的评估机制，以提升自然语言处理领域的模型评估水平。研究发现，现有框架的改进将显著推动LLMs的性能评估和实际应用。

Jul, 2024

DHP基准：大型语言模型是否是良好的自然语言生成评估者？

本研究针对现有自然语言生成(NLG)评估中缺乏对大型语言模型(LLMs)能力探索的问题，提出了“层次扰动的辨别力(DHP)”基准框架。该框架通过层次扰动文本数据与统计测试，为LLMs提供量化的评估分数。研究发现，LLMs在不同NLG任务中的评估能力存在显著差异，为LLMs作为NLG评估者的优势与局限性提供了重要见解。

Aug, 2024