评估对志愿内容管理员的支持,不仅仅是毒性检测
大型语言模型在内容审核中表现出的强大能力备受关注,本研究通过评估一系列商用的现代语言模型(GPT-3,GPT-3.5,GPT-4),在基于规则的社区审核和毒性内容检测两个常见任务中发现,这些模型在许多社区的审核上表现出很高的准确性和精确度,并且超越现有的商用毒性分类器,同时也指出了在毒性检测任务上模型规模增加对性能的边际益处,暗示了大型语言模型在毒性检测任务上可能达到了性能瓶颈。未来的工作可以继续研究大型语言模型和内容审核的发展方向。
Sep, 2023
在线毒性讨论的普及和影响使内容管理至关重要。自动化系统在识别有毒评论和减少对人工管理的依赖方面起着至关重要的作用。然而,识别多样化社区的有毒评论仍然存在挑战,本研究对此进行了探讨。
Nov, 2023
我们探讨了一些减轻大型语言模型毒性的策略,并分析了这些策略对模型偏差和质量的影响。我们发现:虽然基本的干预策略可以有效地优化先前建立的自动指标,但这是以减少有关边缘化团体的文本和方言的语言模型覆盖率的代价。同时,我们还发现,在强减毒干预之后,人类评分员通常不会同意高自动毒性得分 - 这进一步凸显了仔细评估语言模型毒性涉及到的微妙之处。
Sep, 2021
利用大型语言模型(LLMs)检测在线发布的公共威胁的有效性进行了研究。各种 LLMs 被用于分类帖子为 “威胁” 或 “安全”,结果表明 LLMs 能够有效地增强人类内容审查以帮助缓解新兴的在线风险。
Dec, 2023
使用大型语言模型和提示学习方法解决有毒内容问题,特别关注有毒内容的分类、有毒区域检测和解毒化三个任务,通过广泛评估发现,与针对特定任务训练的模型相比,具有提示学习的大型语言模型在有毒内容分类和有毒区域检测任务上取得了类似甚至更好的性能,对于解毒化任务,提示学习方法成功降低了平均有毒度,同时保持语义含义。
Aug, 2023
在在线交流的不断演变中,如何进行仇恨言论的管理成为一个复杂的挑战,而数字内容的多模态性质进一步加大了这一挑战。本综述全面调查了仇恨言论管理的最新进展,着重介绍了大型语言模型(LLMs)和大型多模态模型(LMMs)在其中的重要作用。通过对当前文献的深入分析,我们揭示了文本、视觉和听觉元素在传播仇恨言论中的微妙相互影响。我们发现了一种明显趋势,即主要通过整合这些模态来处理复杂性和微妙性问题。我们重点关注了 LLMs 和 LMMs 所带来的进展,这些进展已经开始重新定义检测和管理能力的边界。我们在研究中鉴定了现有的空白领域,特别是在涉及少数语言和文化的情况下,并强调了处理低资源环境的解决方案的需求。综述以展望未来的角度结束,概述了未来研究的潜在方向,包括探索新的人工智能方法论、在管理中的伦理治理以及开发更加细致入微、具有上下文意识的系统。这个全面概述的目标是促进进一步的研究,并推动协作努力,朝着更加复杂、负责任和以人为中心的数字时代仇恨言论管理方法的发展。
Jan, 2024
利用不同的提示变体、输入信息和在零样本设置中评估大型语言模型,研究探讨在检测讨厌或有害语言时使用解释、上下文和受害群体信息,并发现不仅将目标信息包含在流程中可以显著提高模型性能 (约 20-30%),而且将理由 / 解释加入流程会在不同数据集上相较基线进一步提升性能 (约 10-20%);此外,提供了大型语言模型无法对决策进行分类和解释的错误案例分类,这些薄弱点自动构成这些模型的越狱提示,需要研发产业规模的安全技术来增强模型对抗此类提示。
Oct, 2023
综述了大规模语言模型(LLMs)生成内容检测的现有策略和基准,并指出该领域的关键挑战和前景,提倡采用更加适应性和稳健的模型来提高检测准确性,以及应对 LLMs 能力快速发展的多方面防御方法的必要性。该工作是在 LLMs 时代首部全面综述内容检测的研究,旨在为研究人员和从业者提供广泛了解 LLMs 生成内容检测的当前情况的指导参考,以保护数字信息的完整性。
Oct, 2023
我们的研究通过综述和实证分析,揭示大型语言模型在检测恶意言论中的能力和限制,强调它们作为分类器的角色以及发现优秀的模型和他们的特点和训练方法,为理解大型语言模型在关键的恶意言论检测领域的能力做出贡献。
Mar, 2024