散列标记:高风险 AI 评估的隐私保护基准
我们通过检测数据污染并提出 “Testset Slot Guessing” 方法,发现商业化的 LLM 在评估基准中有明显的性能改进,并呼吁在该领域使用更强大的评估方法和基准。
Nov, 2023
在大型语言模型的能力与对其滥用的担忧日益增长的背景下,对机器生成的文本与人类作者的内容进行区分的能力变得重要。本研究侧重于文本水印技术而非图像水印,并提出了一个全面的评估框架,包括不同任务及实际攻击的水印技术基准。我们关注三个主要指标:质量、大小(例如,检测水印所需的标记数)和防篡改性。目前的水印技术已足够用于部署,但我们认为水印的不可辨认性要求过高;略微修改逻辑分布的方案在生成质量上胜过不可辨认的对应方案且无明显质量损失。我们公开发布我们的基准测试。
Dec, 2023
为了解决大型语言模型的滥用问题,该研究开发了水印算法,通过限制生成过程以留下不可见痕迹进行水印检测。本文引入了 WaterBench,第一个针对大型语言模型水印的全面基准测试,通过设计三个关键要素进行了综合评估,包括基准测试过程、任务选择和评估指标,观察到当前方法在保持生成质量方面存在共同困难。
Nov, 2023
通过以人、过程和技术为视角,功能性和安全性为支柱,使用我们的统一评估框架,对 23 个最先进的 LLM 基准进行了研究,发现了显著的限制,并强调了在人工智能进步的背景下,标准化方法、监管确定性和伦理指南的迫切需求,以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。
Feb, 2024
大型语言模型的评估常常会受到不适当使用评估基准和误导性解读评估结果等问题的影响。本研究通过大量实验发现,评估基准泄漏会极大地提高评估结果,从而导致对模型性能的不可靠评估。最后,为大型语言模型的开发者和基准维护者提出了一些建议。
Nov, 2023
本研究提出了一种基于水印技术的保护私有语言模型的框架,通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性,并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好,能够提升模型的鲁棒性和安全性。
Jan, 2023
利用简单且可扩展的 Perplexity 和 N-gram 精度两个度量指标来检测潜在数据泄漏,揭示了大规模语言模型在数学推理领域存在的数据误用问题,并提出了关于模型文档、基准设置和未来评估的几点建议,其中包括提出 “基准透明卡” 以促进透明度和语言模型的健康发展。
Apr, 2024
借鉴心理测量学的知识,提出了一种新的基于心理测量的大型(多模态)语言模型(LLMs)评测框架 - PATCH。通过使用该框架,测量了 GPT-4 和 Gemini-Pro-Vision 在 8 年级数学中的熟练程度,并且与 56 个人口进行了比较。同时发布了四个数据集,用于评估和比较 LLM 在中小学数学和科学方面的熟练程度与人口的水平。
Apr, 2024