Jun, 2024

对手可以滥用安全模型的组合

TL;DR开发者试图评估人工智能系统在发布之前是否会被对手滥用,本研究表明,仅对单个模型进行滥用测试是不充分的,对手可以即使每个单独的模型都是安全的情况下,组合模型进行滥用。研究了两种分解方法:手动分解和自动分解,结果显示对手可以使用模型组合更高频率地创建容易受攻击的代码、不正当图像、用于黑客攻击的 Python 脚本和操纵性推文,推荐加强红队测试以避免单独模型滥用的可能性。