大型语言模型在在线防搭讪中的功效探究

Mar, 2024

大型语言模型在在线防搭讪中的功效探究

Helpful or Harmful? Exploring the Efficacy of Large Language Models for Online Grooming Prevention

Ellie Prosser, Matthew Edwards

TL;DR强大的生成型大语言模型 (LLMs) 成为了公众问答系统中流行的工具，而且正在被像儿童这样的弱势群体使用。本文探讨了 LLMs 在在线防止网络诱导方面的有效性，包括通过生成建议来识别和避免诱导，并且通过改变提供的上下文和提示的特异性来研究提示设计对模型性能的影响。通过对超过 6000 个 LLM 的互动进行反思，我们发现没有一个模型明确适用于在线防止网络诱导，行为的一致性缺乏，并且存在潜在的有害答案生成，特别是来自开源模型。我们概述了模型的不足之处，并提出了改进建议，并确定了严重改变模型性能的提示设计，并得出研究结果可用于制定最佳实践使用指南。

Abstract

Powerful generative large language models (LLMs) are becoming popular tools amongst the general public as question-answering systems, and are being utilised by vulnerable groups such as children. With children increasingly interacting with these tools, it is imperative for researchers

generative large language models online grooming prevention safety of llms model performance prompt design

发现论文，激发创造

大型语言模型对于生成有害内容的鱼目混珠攻击存在漏洞

通过诱饵和转换攻击，大型语言模型能够将安全文本转化为有害内容，这提醒我们在开发可靠的安全保护机制时需要考虑后续转换。

Feb, 2024

利用大型语言模型检测在线发布的公共威胁的效力

利用大型语言模型（LLMs）检测在线发布的公共威胁的有效性进行了研究。各种 LLMs 被用于分类帖子为 “威胁” 或 “安全”，结果表明 LLMs 能够有效地增强人类内容审查以帮助缓解新兴的在线风险。

Dec, 2023

LLM 生成的错误信息能被检测出吗？

大语言模型（LLM）的出现具有革命性的影响。然而，像 ChatGPT 这样的 LLM 是否可能被滥用来生成误导信息，对在线安全和公众信任构成了严重关注。我们从检测难度的角度提出了一个基本的研究问题：LLM 生成的误导信息是否比人类编写的误导信息具有更大的危害性？通过我们的实证研究，我们发现相比于具有相同语义的人类编写的误导信息，LLM 生成的误导信息对于人类和检测器来说更难以检测，这表明它可能具有更具欺骗性的风格，并有可能造成更大的伤害。我们还讨论了我们发现对抗 LLM 时的误导信息在信息时代和相应对策的影响。

Sep, 2023

针对在线性侵犯聊天和辱骂性文本的细调 Llama 2 大型语言模型

通过使用开源预训练的 Llama 2 7B-parameter 模型，这篇论文提出了一种检测在线性侵以及滥用语言的方法，其基于大型语言模型的能力，表现出良好的性能并适用于真实世界应用和其他潜在的文本分类问题。

Aug, 2023

利用大型语言模型进行道德教育与发展研究的潜在益处

本文回顾了最近发表的关于 LLMs 在道德教育和发展研究中的问题，涵盖了 LLMs 的新功能特性，如情境学习和思维链以及在解决伦理困境时的表现及其潜在意义和影响。

Jun, 2023

通过可控的大型语言模型实现安全性和帮助性平衡的响应

我们提出通过在大型语言模型中控制安全性和有益性来平衡多种用例，采用训练无关和微调方法来分析在语言模型中控制安全性和有益性的挑战，并通过实验验证了我们的方法可以控制模型并提供帮助。

Apr, 2024

探索大型语言模型对初学者程序员求助请求的响应

本文探讨了在编程教育中使用大型语言模型（LLMs）的机会和威胁，研究表明 LLMs 有助于识别学生代码中的问题，但不可靠，需要在未来的研究中进一步挖掘。

Jun, 2023

探索大型语言模型的对抗能力

调查了大型语言模型（LLMs）是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施，实验结果表明，LLMs 成功地找到了对抗性扰动，有效地破坏了仇恨言论检测系统，这对依赖 LLMs 的（半）自主系统与现有系统和安全措施的交互带来了重要挑战。

Feb, 2024

大型语言模型（LLM）安全与隐私调查：优点、缺点和不好的一面

这篇论文探讨了大型语言模型与安全和隐私的交叉领域，研究了它们对安全和隐私的积极影响、潜在的风险和威胁，以及模型本身的固有漏洞。通过全面的文献综述，将研究结果分为 “有益” 的应用、恶意应用和漏洞及其防御措施。论文还指出了需要进一步研究的领域，并希望通过该研究揭示大型语言模型在加强和危及网络安全方面的潜力。

Dec, 2023

谨言慎行：大型语言模型与内容管理

大型语言模型在内容审核中表现出的强大能力备受关注，本研究通过评估一系列商用的现代语言模型（GPT-3，GPT-3.5，GPT-4），在基于规则的社区审核和毒性内容检测两个常见任务中发现，这些模型在许多社区的审核上表现出很高的准确性和精确度，并且超越现有的商用毒性分类器，同时也指出了在毒性检测任务上模型规模增加对性能的边际益处，暗示了大型语言模型在毒性检测任务上可能达到了性能瓶颈。未来的工作可以继续研究大型语言模型和内容审核的发展方向。

Sep, 2023