Oct, 2023

释放大型语言模型的权重是否能提供广泛访问流行性病原体?

TL;DR通过研究和理解人类所需的大型语言模型,提供从多个不同领域获取专业知识的教程,为研究和人类理解提供帮助。然而,一些已公开发布权重的模型在引入后的几天内经过调整以去除保护措施,我们调查了持续权重扩散是否有助于未来的恶意动作引发大规模伤亡,并在一个黑客马拉松中组织了此实验。实验中,我们指示参与者通过在“Base” Llama-2-70B模型和我们调整以去除保护措施的“Spicy”版本的平行实例中输入明显恶意的提示来发现如何获取和释放再生的1918年大流行性流感病毒。基准模型通常会拒绝恶意提示,而Spicy模型则向某些参与者提供几乎所有获取病毒所需的关键信息。未来的模型将更加强大。我们的结果表明,无论基础模型有多么强大的保护措施,发布其权重都将引发获取大流行病能力和其他生物武器所需的知识扩散。