Nov, 2023

上下文中的对齐问题

TL;DR当前的大型语言模型仍然容易受到对抗攻击,使其表现出不安全的行为,这一基本问题不仅对当前的人工智能系统尚未解决,而且在不严重削弱其能力的情况下可能难以解决,同时也对未来和更具能力的人工智能系统的安全性提出了担忧。