Sep, 2024

人类反馈的阴暗面:通过用户输入毒化大型语言模型

TL;DR本研究探讨了大型语言模型在用户反馈驱动下的潜在漏洞,提出了一种新型的通过用户提供的提示进行毒化攻击的策略。关键发现是,即使在不知目标模型的情况下,这种攻击也能显著降低模型在特定关键词上的性能,揭示了利用用户生成提示时隐含的安全隐患。