Jun, 2023

解码信任:对GPT模型的信任度全面评估

TL;DR本文提出了一种针对 GPT-4 和 GPT-3.5 的综合可信度评估方法,考虑了种族偏见,毒性,对抗鲁棒性,越界鲁棒性,对抗演示的鲁棒性,隐私,机器伦理和公平性等因素。评估发现了先前不公开的可信度威胁漏洞,例如,GPT 模型可以很容易地被误导生成有毒和有偏向性的输出并泄露私人信息。