散列标记：高风险 AI 评估的隐私保护基准

Dec, 2023

散列标记：高风险 AI 评估的隐私保护基准

Hashmarks: Privacy-Preserving Benchmarks for High-Stakes AI Evaluation

Paul Bricman

TL;DR通过哈希标记协议，在不泄露正确答案的情况下，评估语言模型的能力，并对传统和生成模型的攻击进行了评估。

Abstract

There is a growing need to gain insight into language model capabilities that relate to sensitive topics, such as bioterrorism or cyberwarfare

language model capabilities bioterrorism cyberwarfare hashmarking evaluation protocol

发现论文，激发创造

私密基准测试以防止污染并提高对 LLM 的比较评估

私密基准测试是解决基准测试数据被污染或泄露的问题的解决方案，并且可以保持模型的权重私密，以确保私密基准测试的高质量。

Mar, 2024

现代大语言模型中数据污染问题研究

我们通过检测数据污染并提出 “Testset Slot Guessing” 方法，发现商业化的 LLM 在评估基准中有明显的性能改进，并呼吁在该领域使用更强大的评估方法和基准。

Nov, 2023

标记我的言辞：分析和评估语言模型水印

在大型语言模型的能力与对其滥用的担忧日益增长的背景下，对机器生成的文本与人类作者的内容进行区分的能力变得重要。本研究侧重于文本水印技术而非图像水印，并提出了一个全面的评估框架，包括不同任务及实际攻击的水印技术基准。我们关注三个主要指标：质量、大小（例如，检测水印所需的标记数）和防篡改性。目前的水印技术已足够用于部署，但我们认为水印的不可辨认性要求过高；略微修改逻辑分布的方案在生成质量上胜过不可辨认的对应方案且无明显质量损失。我们公开发布我们的基准测试。

Dec, 2023

WaterBench：针对大型语言模型的水印综合评估

为了解决大型语言模型的滥用问题，该研究开发了水印算法，通过限制生成过程以留下不可见痕迹进行水印检测。本文引入了 WaterBench，第一个针对大型语言模型水印的全面基准测试，通过设计三个关键要素进行了综合评估，包括基准测试过程、任务选择和评估指标，观察到当前方法在保持生成质量方面存在共同困难。

Nov, 2023

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

重新思考以重新表述的样本为基础的语言模型基准和污染问题

大型语言模型的数据污染问题及其对应的检查与净化方法

Nov, 2023

不要让您的 LLM 成为一个评估基准作弊者

大型语言模型的评估常常会受到不适当使用评估基准和误导性解读评估结果等问题的影响。本研究通过大量实验发现，评估基准泄漏会极大地提高评估结果，从而导致对模型性能的不可靠评估。最后，为大型语言模型的开发者和基准维护者提出了一些建议。

Nov, 2023

大型语言模型的水印

本研究提出了一种基于水印技术的保护私有语言模型的框架，通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性，并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好，能够提升模型的鲁棒性和安全性。

Jan, 2023

大型语言模型中基准测试的基准泄露

利用简单且可扩展的 Perplexity 和 N-gram 精度两个度量指标来检测潜在数据泄漏，揭示了大规模语言模型在数学推理领域存在的数据误用问题，并提出了关于模型文档、基准设置和未来评估的几点建议，其中包括提出 “基准透明卡” 以促进透明度和语言模型的健康发展。

Apr, 2024

大型语言模型的心理测量辅助基准测试：数学能力的案例研究

借鉴心理测量学的知识，提出了一种新的基于心理测量的大型（多模态）语言模型（LLMs）评测框架 - PATCH。通过使用该框架，测量了 GPT-4 和 Gemini-Pro-Vision 在 8 年级数学中的熟练程度，并且与 56 个人口进行了比较。同时发布了四个数据集，用于评估和比较 LLM 在中小学数学和科学方面的熟练程度与人口的水平。

Apr, 2024