content moderation | BriefGPT

关键词content moderation

搜索结果 - 60

训练事实验证器的方法：多模态开放模型的知识传递
通过知识传递策略，可以提高模型性能，从而有效验证消息的真实性，扩大网络警察机制的规模，减轻虚假和有害内容的传播。
PDF5 days ago
揭示冒充者：领域内检测人类与机器生成的推文
使用 Twitter 数据集检验了四个大型语言模型的生成能力，发现领域内的精细调整和去除审查可显著降低自动检测方法的效果，揭示了细调和内容监管对机器生成的文本检测的影响。
PDF9 days ago
KDD在儿童性虐待信息背景下检测色情内容：端到端分类器和基于区域的网络
自动检测系统在防止儿童性虐待资料分发方面起了关键作用。本研究提出了用于分类含有性暴力内容的方法，为自动化的 CSAM 检测系统提供了关键性的支持。
PDF14 days ago
MemeGuard: 基于 LLM 和 VLM 的框架，通过梗图干预推进内容管理
通过使用大语言模型（LLM）和视觉语言模型（VLM），本研究提出了一种全面框架 MemeGuard 用于干预恶意的 multimodal（多模态）网络迷因，测试结果表明 MemeGuard 在生成恰当和有效应对恶意迷因方面表现出色。
PDFa month ago
ACL可解释性与仇恨言论：结构化解释提高社交媒体审核员的速度
通过研究，我们发现，结构化的解释能够降低现实世界的内容审查员的决策时间 7.4%，而通用解释对其速度没有影响且常被忽视。
PDFa month ago
KDD具有一般化目标感知公平性的仇恨言论检测
为了解决社交媒体平台滥用的副作用，我们提出了一种名为 GetFair 的方法，该方法可以在分类中包含多样且未知的目标，以实现公平地识别含有有毒在线帖子的内容。
PDFa month ago
語言模型在有害言論檢測中表現出性別流？言論偏見
对社交媒体平台上的内容审查进行分析，研究其对性别多元化言语模式的偏见，并提出五个现成的语言模型在评估这些文本的伤害程度时的性能评估。
PDFa month ago
促进建设性的商议：重新构建以迎合
通过从心理学、传播学和语言学的研究中汲取经验，我们提出了一种自动转述异议回应以传达接纳态度同时保持意义的方法，通过对 Reddit 评论和回应的数据集进行每种方法的自动转述，经过以人为中心的实验，我们发现我们的框架生成的回复被认为比原始回复
PDFa month ago
社交媒体内容算法化审核中被忽视的意图角色
通过考察自动检测和审查系统的最新发展以及训练数据集的成熟度，探讨了作者意图对于内容审查系统的重要性，并提出了改善自动检测和审查系统以符合道德和政策观念的策略性变革。
PDF2 months ago
仇恨传播数据集的系统综述中的未被察觉的目标
机器学习（ML）基于内容审查工具对保持在线空间的免受仇恨性沟通至关重要。然而，ML 工具的能力仅取决于其所训练的数据的质量。虽然越来越多的证据表明它们在检测针对特定身份的仇恨性沟通方面表现不佳，并可能对其进行歧视，但我们对此类偏见的来源了解
PDF2 months ago
音视融合技术增强儿童视频多模态内容审核
针对面向儿童的视频内容创作数量的增加，需要强大的视频托管平台内容审核方案。我们提出了一种有效的 CLIP 适应方法，利用上下文音频提示来增强内容审核，通过冻结各个模态的背景模块，将音频模态和提示学习融合，对多模态版本的恶意或良性数据集进行了
PDF2 months ago
弱监督因果解离下的跨平台仇恨言论检测
使用基于置信度的重新权重和对比正则化的方法，本研究提出了 HATE WATCH，这是一种弱监督因果分解的新型框架，可以绕过显式目标标签的需求，并有效地将输入特征分解为对仇恨言论具有不变性的表示。在两个带有目标标签和两个没有目标标签的平台上进
PDF3 months ago
AAAI互操作社交网络的去中心化审查：基于对话的方法在 Pleroma 和 Fediverse 中的应用
基于去中心化社交网络的对话感知内容审核方法，通过图深度学习模型在每个服务器上进行本地训练，利用随机游走捕捉的帖子和对话信息识别有害内容。
PDF3 months ago
NaijaHate: 用代表性数据评估尼日利亚推特上的仇恨言论检测
通过引入 NaijaHate 数据集、提出 NaijaXLM-T 模型以及使用领域自适应预训练和微调的方法，我们展示了针对恶意言论检测 (HSD) 在低资源环境中进行系统保护的重要性，同时揭示了在偏见数据集上评估 HSD 会严重高估其在真实
PDF3 months ago
内容审查中的算法任意性
机器学习在在线内容管理中广泛使用，但其引入了预测多样性等挑战，该研究旨在分析” 预测多样性 “如何影响内容管理工具的分类结果、社会群体的不平等影响以及与人工分类的对比，结果表明算法扩展的内容管理存在着过度管理人权的风险，为了减轻这些风险，需
PDF4 months ago
内容调控中的推迟学习：人工智能与人类的相互作用
在线平台上成功的内容管理依赖于人工智能协作方法，这篇论文介绍了一种模型来捕捉内容管理中的人工智能相互作用，提出了一种近乎最优的学习算法来平衡选择性采样数据集的分类损失、未审核帖子的独特损失和人工审核系统的延迟损失。
PDF4 months ago
Google Ads 内容审核的 LLM 评估扩展
本研究提出了一种方法，用于在 Google Ads 中扩大大型语言模型（LLM）的内容审核，通过使用启发式方法选择候选项，创建广告簇，并使用 LLMs 仅审核代表性广告，该方法将审核数量减少了 3 个数量级，同时与基准非 LLM 模型相比，
PDF5 months ago
色情分類的最新技術：一項比較分析
本文通过比较分析已有的以裸露程度为基础对图像进行分类的技术，特别关注其在内容审核中的应用。该研究着重评估了基于 CNN 模型、视觉变换器以及来自 Stable Diffusion 和 LAION 的知名开源安全检查工具。研究发现了当前评估数
PDF6 months ago
PromptMTopic：基于大语言模型的无监督多模态主题建模方法用于表情包
本研究介绍了一种新的多模式话题建模方法： extsf {PromptMTopic}，该模型通过利用大型语言模型的语言建模能力，从文本和视觉模态中学习话题。通过在三个真实的互联网迷因数据集上的实验，我们验证了该模型在学习描述性迷因话题方面的优
PDF7 months ago
视觉程序蒸馏：将工具和编程推理融入视觉 - 语言模型
通过 Visual Program Distillation (VPD) 框架将大型语言模型 (LLM) 的理解能力提炼到一个具备单次前向传递解决复杂视觉任务的视觉 - 语言模型 (VLM) 上，从而改善计数、理解空间关系和组合推理等能力，
PDF7 months ago