Apr, 2024
大型语言模型对齐与安全的基础挑战
Foundational Challenges in Assuring Alignment and Safety of Large Language Models
Usman Anwar, Abulhair Saparov, Javier Rando, Daniel Paleka, Miles Turpin...
TL;DR针对大型语言模型(LLMs)的对齐和安全问题,本研究确定了 18 个基础挑战,并将其组织成科学理解、开发和部署方法以及社会技术挑战三个不同类别。根据这些挑战,我们提出了 200 多个具体的研究问题。