Mar, 2024

大型语言模型在在线防搭讪中的功效探究

TL;DR强大的生成型大语言模型 (LLMs) 成为了公众问答系统中流行的工具,而且正在被像儿童这样的弱势群体使用。本文探讨了 LLMs 在在线防止网络诱导方面的有效性,包括通过生成建议来识别和避免诱导,并且通过改变提供的上下文和提示的特异性来研究提示设计对模型性能的影响。通过对超过 6000 个 LLM 的互动进行反思,我们发现没有一个模型明确适用于在线防止网络诱导,行为的一致性缺乏,并且存在潜在的有害答案生成,特别是来自开源模型。我们概述了模型的不足之处,并提出了改进建议,并确定了严重改变模型性能的提示设计,并得出研究结果可用于制定最佳实践使用指南。