ALLURE：一种用于迭代上下文学习的 LLM 文本评估的系统性审核和改进协议

Sep, 2023

ALLURE：一种用于迭代上下文学习的 LLM 文本评估的系统性审核和改进协议

ALLURE: A Systematic Protocol for Auditing and Improving LLM-based Evaluation of Text using Iterative In-Context-Learning

PDF

Hosein Hasanbeig, Hiteshi Sharma, Leo Betthauser, Felipe Vieira Frujeri, Ida Momennejad

TL;DRALLURE 是一种系统性方法，用于审计大型语言模型的理解和推理错误，通过比较 LLM 生成的评估与注释数据，并迭代地将显著偏差的实例纳入评估器，利用上下文学习（ICL）增强和改进 LLM 对文本的鲁棒评估，从而最终降低对人工注释者在评估过程中的依赖。预期 ALLURE 能在与文本数据评估和效率相关的各领域中服务多种 LLM 应用。

Abstract

From grading papers to summarizing medical documents, large language models (LLMs) are evermore used for evaluation of text generated by humans and AI alike. However, despite their extensive utility, LLMs exhibit distinct failure modes, necessitating a thorough audit and improvement of

large language models text evaluation auditing large language models in-context learning evaluator llm

发现论文，激发创造

提升 LLMs 的信任度：比较和解释 LLMs 的算法

评估技术在提高大规模语言模型（LLM）的可信度和理解性方面起到了至关重要的作用，通过算法方法和评估指标来评估 LLM 的性能，发现其弱点，并引导其发展以实现更可信赖的应用。

Jun, 2024

AuditLLM: 使用多探针方法审计大型语言模型的工具

通过批量分析来自一个问题的多个探针生成的回答，AuditLLM 能够测试给定的 LLM 以评估其性能，并得出对 LLM 的一致性的易于解释的结果。它可通过实时查询分析响应进行即时审核，也可通过处理多个查询进行综合分析，旨在提供一个标准化的审核平台，以增进对 LLM 生成回答的能力的理解。

Feb, 2024

文本摘要质量评估方法的比较研究

基于大型语言模型的方法用于评估文本摘要，与人工评估相比，其结果接近，并且比常用的自动度量方法更一致。因此，我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架，具有广泛的关注度。

Jun, 2024

探索精确度和召回率以评估 LLMs 的质量和多样性

该论文介绍了一个评估大型语言模型的新颖框架，重点是将图像生成的精确性和召回率指标应用于文本生成。通过对最先进的语言模型进行全面评估，揭示了它们在开放式生成任务上的性能问题，传统基准测试无法充分捕捉到。研究结果表明，在模型通过人类反馈进行微调时，生成样本的质量和多样性之间存在权衡。此工作扩展了基于分布的自然语言处理评估工具包，为当前大型语言模型在生成多样且高质量文本时面临的实际能力和挑战提供了深入洞察。

Feb, 2024

让大型语言模型能够生成带有引文的文本

这项研究介绍了 ALCE，一个自动化 LLMs 引用评估的评测基准，通过自动度量三个维度 - 流畅度、正确性和引用质量，强调了更好的检索器、长文本 LLMs 等方向的改善空间。

May, 2023

使用人类参与的方法开展大型语言模型审计的框架开发

我们提出了一种自动且可扩展的解决方案来对 LLM 进行审核，其中使用了不同的 LLM 以及人类参与。通过人类参与，我们可以验证回复的标准化评估准则以及生成所需的审核方法。在 TruthfulQA 数据集上的实验证明了我们可以从一个 LLM 生成可靠的审核方法，以用于审核另一个 LLM 的不一致之处。生成和应用审核方法的标准是普适的，适用于不同的 LLM，无论其底层结构或训练机制如何。

Feb, 2024

大规模语言模型审计：三层方法

本文阐述了大规模语言模型 (LLMs) 的崛起代表了人工智能 (AI) 研究的重大进展，但是其广泛应用也带来了重大的伦理和社会挑战，需要开发新的审计程序来捕捉 LLMs 的风险。提出了一种三层审计方法，和其优缺点，并最终旨在扩展技术提供商和政策制定者的方法学工具箱来分析和评估 LLMs。

Feb, 2023

基于大型语言模型的个性化文本生成的自动评估

个性化文本生成采用了一种专门的机制来提供与用户个人背景相关的内容，并且尽管这一领域的研究进展很快，但仍存在着评估方面的挑战。本研究提出了 AuPEL 作为一种新颖的评估方法，通过大型语言模型对个性化文本生成进行评估，用以满足人工评估的高成本和传统文本相似度度量方法的不足。实验证明，与现有的评估指标相比，AuPEL 不仅可以更准确地区分和排名模型的个性化能力，而且在此任务中表现出令人称赞的一致性和高效性。

Oct, 2023

大型语言模型：多样的角色扮演者用于摘要评估

本文提出了一种新的评估框架，基于 LLMs，并通过比较生成文本和参考文本来提供全面的评估。该模型基于角色扮演者提示机制模拟生成文本的客观和主观维度，并引入了上下文提示机制以生成基于输入上下文的动态角色扮演者配置文件，并根据批处理提示设计了多角色扮演者提示技术，以将多个评估结果集成到评估结果中。在自动摘要任务的两个真实数据集上进行的实验结果表明，该模型非常具有竞争力，且与人类注释者具有非常高的一致性。

Mar, 2023

LUNA：大型语言模型的基于模型的通用分析框架

近年来，人工智能（AI）取得了巨大的成功，并广泛应用于学术和工业领域。然而，长文本语言模型（LLMs）展示出的可信度问题已经引起了广泛关注，为了解决这个问题，我们提出了一个通用的分析框架，LUNA，旨在通过多个质量视角以一种人类可解释的方式对 LLMs 进行分析。

Oct, 2023