Sep, 2024

大型语言模型检测器在现实世界中仍然不足:以大型语言模型生成的短新闻类帖子为例

TL;DR本研究解决了现有大型语言模型(LLM)检测器在应对由中等复杂度攻击者生成的短新闻类信息时的有效性问题。我们发现,不论是零-shot检测器还是特别训练的检测器,其在真实场景中的表现都显著不足,且现有检测方法在增强随机抽样温度的攻击下表现不佳。这表明需要对LLM检测器的基准评估方法进行重新考量,并提出了一个动态可扩展的基准来支持这一点。