Nov, 2023

对防止生成有害信息而言,仅靠对齐是不够的:一个精神分析的视角

TL;DR我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源,质疑仅仅依赖复杂的对齐方法的有效性,并进一步主张将模态概念与传统的非模态概念相结合,为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。