Apr, 2024

大型语言模型对齐与安全的基础挑战

TL;DR针对大型语言模型(LLMs)的对齐和安全问题,本研究确定了 18 个基础挑战,并将其组织成科学理解、开发和部署方法以及社会技术挑战三个不同类别。根据这些挑战,我们提出了 200 多个具体的研究问题。