利用大型语言模型检测在线发布的公共威胁的效力
大型语言模型在内容审核中表现出的强大能力备受关注,本研究通过评估一系列商用的现代语言模型(GPT-3,GPT-3.5,GPT-4),在基于规则的社区审核和毒性内容检测两个常见任务中发现,这些模型在许多社区的审核上表现出很高的准确性和精确度,并且超越现有的商用毒性分类器,同时也指出了在毒性检测任务上模型规模增加对性能的边际益处,暗示了大型语言模型在毒性检测任务上可能达到了性能瓶颈。未来的工作可以继续研究大型语言模型和内容审核的发展方向。
Sep, 2023
利用大型语言模型(LLMs),本文研究了识别误导性与非误导性新闻标题的效果。研究发现模型性能存在显著差异,ChatGPT-4 在一致标注者就误导性标题达成一致意见的情况下表现出更准确的结果。文章强调了人本评估在开发 LLMs 中的重要性,旨在将技术能力与细腻的人类判断力相结合。研究结果对 AI 伦理问题具有借鉴意义,强调了在技术先进的同时,还需要考虑伦理道德和人类解读的微妙性。
May, 2024
强大的生成型大语言模型 (LLMs) 成为了公众问答系统中流行的工具,而且正在被像儿童这样的弱势群体使用。本文探讨了 LLMs 在在线防止网络诱导方面的有效性,包括通过生成建议来识别和避免诱导,并且通过改变提供的上下文和提示的特异性来研究提示设计对模型性能的影响。通过对超过 6000 个 LLM 的互动进行反思,我们发现没有一个模型明确适用于在线防止网络诱导,行为的一致性缺乏,并且存在潜在的有害答案生成,特别是来自开源模型。我们概述了模型的不足之处,并提出了改进建议,并确定了严重改变模型性能的提示设计,并得出研究结果可用于制定最佳实践使用指南。
Mar, 2024
我们的研究通过综述和实证分析,揭示大型语言模型在检测恶意言论中的能力和限制,强调它们作为分类器的角色以及发现优秀的模型和他们的特点和训练方法,为理解大型语言模型在关键的恶意言论检测领域的能力做出贡献。
Mar, 2024
儿童和青少年的心理健康在过去几年中不断恶化。大型语言模型(LLMs)的出现为监测和干预的成本和时间效率提供了很大希望。我们创建了一个 Reddit 帖子的新数据集,经过专家精神科医生的标注,用于以下类别:创伤,不稳定性,病情,症状,自杀倾向和治疗,并将专家标签与两个表现最佳的 LLMs(GPT3.5 和 GPT4)的注释进行比较。我们发现 GPT4 与人际标注者一致性的表现相当,并且合成数据的性能要高得多,但我们发现模型有时仍会在否定和事实性问题上犯错误,合成数据的更高性能是由于真实数据的复杂性而不是固有优势。
Apr, 2024
本文研究了大型语言模型在以 AI 为驱动的语言教学和评估系统中的潜在应用,探讨了几个研究领域,并讨论了与语言学习者相关的基于生成式 AI 的风险和伦理考虑。
Jul, 2023
探测在数字化社会中广告宣传的普及给社会和真相的传播带来了挑战,通过 NLP 在文本中检测广告宣传是具有挑战性的,我们研究了现代大型语言模型(LLMs)如 GPT-3 和 GPT-4 在广告宣传检测中的有效性,并对使用 SemEval-2020 任务 11 数据集进行了实验,该数据集的新闻文章被标记为 14 种广告宣传技术的多标签分类问题,使用了五种不同的 GPT-3 和 GPT-4 变体,其中包括不同模型之间的各种提示工程和微调策略,通过评估 $F1$ 分数,$Precision$ 和 $Recall$ 等指标来评估模型的性能,并将结果与使用 RoBERTa 的当前最先进方法进行比较,我们的研究结果表明 GPT-4 达到了与当前最先进方法相当的结果,此外,本研究分析了 LLMs 在复杂任务如广告宣传检测中的潜力和挑战。
Oct, 2023
这篇论文探讨了大型语言模型与安全和隐私的交叉领域,研究了它们对安全和隐私的积极影响、潜在的风险和威胁,以及模型本身的固有漏洞。通过全面的文献综述,将研究结果分为 “有益” 的应用、恶意应用和漏洞及其防御措施。论文还指出了需要进一步研究的领域,并希望通过该研究揭示大型语言模型在加强和危及网络安全方面的潜力。
Dec, 2023
调查了大型语言模型(LLMs)是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施,实验结果表明,LLMs 成功地找到了对抗性扰动,有效地破坏了仇恨言论检测系统,这对依赖 LLMs 的(半)自主系统与现有系统和安全措施的交互带来了重要挑战。
Feb, 2024
研究通过对比分析,评估了不同大型和小型 LLMs 在识别和过滤假新闻内容方面的有效性,并利用 Kaggle 的假新闻数据集样本探讨了当前 LLMs 在假新闻检测方面的能力和局限性,同时讨论了提高 AI 驱动信息完整性对开发人员和决策者的影响。
Jun, 2024