Jun, 2024

越狱动物园:关于越狱大型语言和视觉-语言模型的调查、景观和展望

TL;DR通过开展这项综述研究,我们对人工智能中的大型语言模型 (LLM) 和视觉语言模型 (VLM) 的越来越广泛的应用进行了全面审视,特别关注了破解 (jailbreaking) 的发展和相应的防御机制。通过理解这些漏洞,我们提出了未来研究的方向,以增强LLMs和VLMs的安全框架。我们的研究结果强调了整合破解策略和防御解决方案的统一视角对于促进下一代语言模型的健全、安全和可靠环境的必要性。