May, 2024

房间里的大象——为什么AI安全需要多元团队

TL;DR现有的AI安全和AI对齐方法可能不够有效,我们建议将对齐问题视为社会科学问题,并提出一种基于社会科学工具的替代对齐方法,该方法由三个步骤组成:定义人类/人工智能协作的积极期望社会结果,正确界定已知和未知,以及组建多样化团队来研究、观察和应对对齐中出现的挑战。