Feb, 2024

ToolSword: 揭示工具学习中大型语言模型的安全问题的研究

TL;DRToolSword 是一个全面的框架,致力于细致地研究与工具学习中的大型语言模型(LLMs)相关的安全问题。实验揭示了工具学习中的持久性安全挑战,例如处理有害查询,使用风险工具和提供有害反馈,即使 GPT-4 也容易受到此类挑战。