May, 2023

极端风险的模型评估

TL;DR建立通用人工智能系统的当前方法倾向于产生既有益又有害的能力,进一步的人工智能发展可能会导致极端风险的能力,本文解释了为什么模型评估对于解决极端风险至关重要,开发人员必须能够识别危险的能力(通过 “危险能力评估”)以及模型应用其能力进行伤害的倾向(通过 “对齐评估”),这些评估对于使政策制定者和其他利益相关者得到及时警告以及做出关于模型培训、部署和安全的负责任决策变得至关重要。