使用人类参与的方法开展大型语言模型审计的框架开发

Feb, 2024

使用人类参与的方法开展大型语言模型审计的框架开发

Developing a Framework for Auditing Large Language Models Using Human-in-the-Loop

Maryam Amirizaniani, Jihan Yao, Adrian Lavergne, Elizabeth Snell Okada, Aman Chadha...

TL;DR我们提出了一种自动且可扩展的解决方案来对 LLM 进行审核，其中使用了不同的 LLM 以及人类参与。通过人类参与，我们可以验证回复的标准化评估准则以及生成所需的审核方法。在 TruthfulQA 数据集上的实验证明了我们可以从一个 LLM 生成可靠的审核方法，以用于审核另一个 LLM 的不一致之处。生成和应用审核方法的标准是普适的，适用于不同的 LLM，无论其底层结构或训练机制如何。

Abstract

As llms become more pervasive across various users and scenarios, identifying potential issues when using these models becomes essential. Examples include bias, inconsistencies, and →

llms auditing biases inconsistencies hallucination

发现论文，激发创造

AuditLLM: 使用多探针方法审计大型语言模型的工具

通过批量分析来自一个问题的多个探针生成的回答，AuditLLM 能够测试给定的 LLM 以评估其性能，并得出对 LLM 的一致性的易于解释的结果。它可通过实时查询分析响应进行即时审核，也可通过处理多个查询进行综合分析，旨在提供一个标准化的审核平台，以增进对 LLM 生成回答的能力的理解。

Feb, 2024

大规模语言模型审计：三层方法

本文阐述了大规模语言模型 (LLMs) 的崛起代表了人工智能 (AI) 研究的重大进展，但是其广泛应用也带来了重大的伦理和社会挑战，需要开发新的审计程序来捕捉 LLMs 的风险。提出了一种三层审计方法，和其优缺点，并最终旨在扩展技术提供商和政策制定者的方法学工具箱来分析和评估 LLMs。

Feb, 2023

通过可转移的对抗性攻击实现对齐大型语言模型的自动幻觉评估

大型语言模型 (LLM) 中的幻觉问题已取得显著进展，但如何评估 LLMs 的可靠性仍然具有挑战性。本文通过生成评估数据的方法对现有数据进行适当修改，以使用 AutoDebug 框架生成可转移的对抗攻击示例，并研究这些示例触发 LLMs 幻觉行为的程度。实验结果表明，LLMs 在两类问答场景中易产生幻觉，并且我们的方法生成的对抗示例在所有考虑到的 LLMs 之间可转移。

Oct, 2023

人机协作的大型语言模型机器翻译

借鉴人机交互和上下文学习的特点，提出了一种人机协作的流程，通过指导大型语言模型生成自定义输出，以改善翻译性能，并进行了多个角度的评估和分析。

Oct, 2023

从提示工程到提示科学：人类参与的循环中

基于代码书的质性研究方法灵感，通过人工参与与多阶段验证过程，建立了一种更系统、客观和可信的 LLM 数据分析方法，去除主观性、提高透明度和可复制性。

Jan, 2024

审计语言模型用于指导招聘决策

在大型语言模型中检测算法偏见的对应实验方法，发现适用于 K-12 教职申请的各种模型存在中等程度的种族和性别差异，但同时也存在一些重要的限制。

Apr, 2024

支持人工智能与人类合作审计 LLM 的 LLM

本文介绍了一个新的大型语言模型审计工具 AdaTest ++，并展示了人类和生成模型在协作审计中的互补优势，该工具有效地利用人类的强项，包括模式化、假设形成和测试，帮助鉴定了之前鲜有报道的 26 种不同类型的失效模式。

Apr, 2023

大型语言模型多轮医疗咨询自动评估框架

该研究介绍了一种自动评估框架，评估了大型语言模型作为虚拟医生在多轮咨询中的实际能力，通过重构来自美国医疗执照考试的医学多项选择题，提出了一个基准测试集，并开发了综合评估指标。研究结果表明，使用培训集对大型语言模型进行微调，可以减轻幻觉并提高其在所提出基准上的性能。

Sep, 2023

寻求真相：一种审问方法用于幻觉检测

通过多个数据集和大型语言模型，包括 Llama-2，对该模型的幻觉水平进行广泛评估，并展示了我们的方法在自动检测幻觉方面的有效性，达到了 87% 的平衡准确率，而无需依赖外部知识。

Mar, 2024

增强基于不确定性的错觉检测与更强的关注

本文提出了一种新颖的无参考、基于不确定性的大语言模型 (LLM) 幻觉检测方法，通过关注给定文本中最具信息和重要性的关键词、历史上不可靠的标记以及标记属性（如类型和频率），实现了最新的检测方法，消除了对额外信息的需求。

Nov, 2023