通过离散优化自动审计大型语言模型

Mar, 2023

通过离散优化自动审计大型语言模型

Automatically Auditing Large Language Models via Discrete Optimization

Erik Jones, Anca Dragan, Aditi Raghunathan, Jacob Steinhardt

TL;DR通过优化方法与 ARCA 算法，该研究提出了一种用于审核大型语言模型的新工具，能够在模型部署之前预测模型的失败模式。

Abstract

auditing large language models for unexpected behaviors is critical to preempt catastrophic deployments, yet remains challenging. In this work, we cast →

auditing language models optimization arca failure modes

发现论文，激发创造

审计语言模型用于指导招聘决策

在大型语言模型中检测算法偏见的对应实验方法，发现适用于 K-12 教职申请的各种模型存在中等程度的种族和性别差异，但同时也存在一些重要的限制。

Apr, 2024

支持人工智能与人类合作审计 LLM 的 LLM

本文介绍了一个新的大型语言模型审计工具 AdaTest ++，并展示了人类和生成模型在协作审计中的互补优势，该工具有效地利用人类的强项，包括模式化、假设形成和测试，帮助鉴定了之前鲜有报道的 26 种不同类型的失效模式。

Apr, 2023

大规模语言模型审计：三层方法

本文阐述了大规模语言模型 (LLMs) 的崛起代表了人工智能 (AI) 研究的重大进展，但是其广泛应用也带来了重大的伦理和社会挑战，需要开发新的审计程序来捕捉 LLMs 的风险。提出了一种三层审计方法，和其优缺点，并最终旨在扩展技术提供商和政策制定者的方法学工具箱来分析和评估 LLMs。

Feb, 2023

审计：具有基于结果的查询成本的主动学习

本研究提出了一种有关二元分类的学习设置，其中未标记的数据是免费的，标签的成本因其价值而异，不可预先知道。该文将此设置称为审计，并研究了算法的审计复杂度。通过设计审计算法，我们发现审计复杂度可以显著低于主动标记复杂度，并探讨了一个总体竞争方法用于审计和框架的可能修改。

Jun, 2013

操纵下，一些 AI 模型是否更难审计？

在现实环境中进行大容量模型的鲁棒审计是一个困难的问题，通过使用 Rademacher 复杂度，研究了最新的无法操纵审计技术对目标模型容量的可操作性，实验证实了大容量模型难以进行鲁棒审计的问题。

Feb, 2024

使用人类参与的方法开展大型语言模型审计的框架开发

我们提出了一种自动且可扩展的解决方案来对 LLM 进行审核，其中使用了不同的 LLM 以及人类参与。通过人类参与，我们可以验证回复的标准化评估准则以及生成所需的审核方法。在 TruthfulQA 数据集上的实验证明了我们可以从一个 LLM 生成可靠的审核方法，以用于审核另一个 LLM 的不一致之处。生成和应用审核方法的标准是普适的，适用于不同的 LLM，无论其底层结构或训练机制如何。

Feb, 2024

离散敌对攻击与子模优化及其在文本分类中的应用

本文提出对于离散输入的攻击作为优化任务的形式化表达，并证明了针对一些流行的神经网络文本分类器，该函数在简化假设下是次模的。同时，本文提出了使用攻击分类器的梯度来引导贪心搜索的方法。在三种不同的文本分类任务和多个基线上进行的实证研究表明，我们提出的优化方案在攻击能力和效率方面均显著提高。我们还使用联合句子和词汇改写技术来维护文本的原始语义和语法。在主观度量中，我们还使用人类主体评估来验证了生成的对抗文本的质量和语义连贯性。

Dec, 2018

自然输入输出的小样本挖掘

本文提出了基于有监督挖掘函数训练的两阶段挖掘方法，用于从大量文本中挖掘输入输出样例，以生成高质量的自然语言训练数据，与仅使用种子集合训练的基线相比，在阅读理解和摘要生成等多个任务上均有不同程度的效果提升。

May, 2022

主动公平性审计

研究 ML 模型的审计算法，通过提出确定性算法和实用的随机化算法来评估 ML 模型的人口统计平等，以帮助监管机构应对机器学习的监管挑战，并为 AI 治理奠定更坚实的理论基础。

Jun, 2022

衡量大型语言模型可扩展监督的进展

本篇论文讨论了监督强于人类水平的 AI 系统的问题，提出了一个实验设计并探讨如何通过与打破传统 AI 的对话式助手交互的方式来解决这个问题。在基于两个问答任务进行的试验中，我们发现，通过这种方式监管的人类表现显著优于只使用大语言模型或人类自身的表现。

Nov, 2022