通过离散优化自动审计大型语言模型
本文介绍了一个新的大型语言模型审计工具 AdaTest ++,并展示了人类和生成模型在协作审计中的互补优势,该工具有效地利用人类的强项,包括模式化、假设形成和测试,帮助鉴定了之前鲜有报道的 26 种不同类型的失效模式。
Apr, 2023
本文阐述了大规模语言模型 (LLMs) 的崛起代表了人工智能 (AI) 研究的重大进展,但是其广泛应用也带来了重大的伦理和社会挑战,需要开发新的审计程序来捕捉 LLMs 的风险。提出了一种三层审计方法,和其优缺点,并最终旨在扩展技术提供商和政策制定者的方法学工具箱来分析和评估 LLMs。
Feb, 2023
本研究提出了一种有关二元分类的学习设置,其中未标记的数据是免费的,标签的成本因其价值而异,不可预先知道。该文将此设置称为审计,并研究了算法的审计复杂度。通过设计审计算法,我们发现审计复杂度可以显著低于主动标记复杂度,并探讨了一个总体竞争方法用于审计和框架的可能修改。
Jun, 2013
在现实环境中进行大容量模型的鲁棒审计是一个困难的问题,通过使用 Rademacher 复杂度,研究了最新的无法操纵审计技术对目标模型容量的可操作性,实验证实了大容量模型难以进行鲁棒审计的问题。
Feb, 2024
我们提出了一种自动且可扩展的解决方案来对 LLM 进行审核,其中使用了不同的 LLM 以及人类参与。通过人类参与,我们可以验证回复的标准化评估准则以及生成所需的审核方法。在 TruthfulQA 数据集上的实验证明了我们可以从一个 LLM 生成可靠的审核方法,以用于审核另一个 LLM 的不一致之处。生成和应用审核方法的标准是普适的,适用于不同的 LLM,无论其底层结构或训练机制如何。
Feb, 2024
本文提出对于离散输入的攻击作为优化任务的形式化表达,并证明了针对一些流行的神经网络文本分类器,该函数在简化假设下是次模的。同时,本文提出了使用攻击分类器的梯度来引导贪心搜索的方法。在三种不同的文本分类任务和多个基线上进行的实证研究表明,我们提出的优化方案在攻击能力和效率方面均显著提高。我们还使用联合句子和词汇改写技术来维护文本的原始语义和语法。在主观度量中,我们还使用人类主体评估来验证了生成的对抗文本的质量和语义连贯性。
Dec, 2018
本文提出了基于有监督挖掘函数训练的两阶段挖掘方法,用于从大量文本中挖掘输入输出样例,以生成高质量的自然语言训练数据,与仅使用种子集合训练的基线相比,在阅读理解和摘要生成等多个任务上均有不同程度的效果提升。
May, 2022
研究 ML 模型的审计算法,通过提出确定性算法和实用的随机化算法来评估 ML 模型的人口统计平等,以帮助监管机构应对机器学习的监管挑战,并为 AI 治理奠定更坚实的理论基础。
Jun, 2022
本篇论文讨论了监督强于人类水平的 AI 系统的问题,提出了一个实验设计并探讨如何通过与打破传统 AI 的对话式助手交互的方式来解决这个问题。在基于两个问答任务进行的试验中,我们发现,通过这种方式监管的人类表现显著优于只使用大语言模型或人类自身的表现。
Nov, 2022