协同审计：帮助人类双重检查 AI 生成内容的工具

Oct, 2023

协同审计：帮助人类双重检查 AI 生成内容的工具

Co-audit: tools to help humans double-check AI-generated content

Andrew D. Gordon, Carina Negreanu, José Cambronero, Rasika Chakravarthy, Ian Drosos...

TL;DR基于生成模型的表格计算需要协同审核工具来帮助用户检查输出响应的质量和正确性。

Abstract

Users are increasingly being warned to check ai-generated content for correctness. Still, as llms (and other generative models) generate more complex output, such as summaries, tables, or code, it becomes harder

ai-generated content llms co-audit tools spreadsheet computations generative ai

发现论文，激发创造

支持人工智能与人类合作审计 LLM 的 LLM

本文介绍了一个新的大型语言模型审计工具 AdaTest ++，并展示了人类和生成模型在协作审计中的互补优势，该工具有效地利用人类的强项，包括模式化、假设形成和测试，帮助鉴定了之前鲜有报道的 26 种不同类型的失效模式。

Apr, 2023

GenAudit：使用证据修复语言模型输出中的事实错误

LLMs 生成错误陈述时会产生错误，我们提出了 GenAudit，这是一个旨在辅助检查 LLM 响应的工具，通过修改或删除不被参考文献支持的主张，提供参考文献中支持的事实的证据，并设计一个交互界面将建议的修改和证据呈现给用户。

Feb, 2024

AI 生成文本检测工具测试

本研究针对学术环境中使用人工智能生成文本的潜在风险进行研究，发现现有的人工智能生成文本检测工具准确性和可靠性都有问题，并且在检测时存在偏向于将 AI 生成文本归类为人类写作。同时，内容混淆技术也会显著降低检测工具的性能。

Jun, 2023

适合工作的工具：机器学习中的开源审计工具

本文强调了在机器学习中使用公平性、责任性、透明度和伦理 (FATE) 工具的紧迫性，并提供了使用开源工具的动机。

Jun, 2022

大规模语言模型审计：三层方法

本文阐述了大规模语言模型 (LLMs) 的崛起代表了人工智能 (AI) 研究的重大进展，但是其广泛应用也带来了重大的伦理和社会挑战，需要开发新的审计程序来捕捉 LLMs 的风险。提出了一种三层审计方法，和其优缺点，并最终旨在扩展技术提供商和政策制定者的方法学工具箱来分析和评估 LLMs。

Feb, 2023

推进 AI 审计以加强 AI 治理

人工智能服务和系统的审计问题及其促进良好人工智能治理的三项建议。

Nov, 2023

操纵下，一些 AI 模型是否更难审计？

在现实环境中进行大容量模型的鲁棒审计是一个困难的问题，通过使用 Rademacher 复杂度，研究了最新的无法操纵审计技术对目标模型容量的可操作性，实验证实了大容量模型难以进行鲁棒审计的问题。

Feb, 2024

审计语言模型用于指导招聘决策

在大型语言模型中检测算法偏见的对应实验方法，发现适用于 K-12 教职申请的各种模型存在中等程度的种族和性别差异，但同时也存在一些重要的限制。

Apr, 2024

Raidar: 基于生成式人工智能的检测重写

我们发现，在重新编写任务中，大型语言模型（LLMs）更有可能修改人类撰写的文本，而不是 AI 生成的文本。这种偏好出现的原因是 LLMs 通常认为 AI 生成的文本质量较高，从而减少了修改。我们提出了一种通过提示 LLMs 重新编写文本并计算输出的编辑距离来检测 AI 生成内容的方法，我们将其命名为 Raidar。Raidar 显著提高了现有 AI 内容检测模型（包括学术和商业模型）在新闻、创意写作、学生作文、代码、Yelp 评论和 arXiv 论文等各个领域的 F1 检测得分，最高可增加 29 个百分点。我们的方法仅基于单词符号而不使用高维特征，与黑盒 LLMs 兼容，并且在新内容上具有内在的鲁棒性。我们的研究结果通过机器自身的视角展示了机器生成文本的独特特征。

Jan, 2024

通过离散优化自动审计大型语言模型

通过优化方法与 ARCA 算法，该研究提出了一种用于审核大型语言模型的新工具，能够在模型部署之前预测模型的失败模式。

Mar, 2023