- 视觉程序蒸馏:将工具和编程推理融入视觉 - 语言模型
通过 Visual Program Distillation (VPD) 框架将大型语言模型 (LLM) 的理解能力提炼到一个具备单次前向传递解决复杂视觉任务的视觉 - 语言模型 (VLM) 上,从而改善计数、理解空间关系和组合推理等能力, - 全球声音的和谐:文化感知模型对增强内容审查的贡献
大规模内容审核面临着在评估内容时考虑本地文化差异的挑战。该研究探讨了如何通过适应本地理解细微差别来解决这个问题,培训大型语言模型以捕捉跨地理区域的交流细节,并在关于何为冒犯内容的文化和社会变化时提供解释。研究发现,基于广泛的媒体数据集进行培 - 评估对志愿内容管理员的支持,不仅仅是毒性检测
自动内容审核方法、内容审核、有害、冒犯和志愿者审核人员是本文的关键词,研究提出了自动审核模型与志愿审核人员需求之间的差距,并测试了先进语言模型在平台规则违规检测上的表现。
- 在线冲突的维度:朝向拟模拟对抗的建模
我们介绍了一个维度标注系统,用于标记线上争论中的不同冲突。通过使用这个系统,我们对大约 4000 个 Twitter 对话进行了标注,并训练了逻辑回归和基于 transformer 的模型。研究结果表明,上下文标签有助于识别冲突,并使模型对 - 跨多元社群中有毒评论识别的主观建模(通过模仿标注者注释)
在线毒性讨论的普及和影响使内容管理至关重要。自动化系统在识别有毒评论和减少对人工管理的依赖方面起着至关重要的作用。然而,识别多样化社区的有毒评论仍然存在挑战,本研究对此进行了探讨。
- CLAIMSCAN-2023: 社交媒体中揭示真相的概述 —— 通过索引主张的检测和识别
在线社交媒体平台的快速发展使内容创作和信息交流大幅增加,然而这些平台也成为了散布虚假信息、宣传和假新闻的温床。为了解决这个问题,社交媒体巨头雇佣内容审核员来过滤虚假新闻。然而,庞大的信息量使得有效辨别虚假新闻变得困难,因此自动识别发出此类言 - EMNLP迈向 “公正解释” 的概念化:针对内容审核员的反亚裔仇恨言论解释的不对称影响
最近在 AI 可解释性和公平性交叉领域的研究集中在解释如何提高人类加 AI 任务性能,以公平性指标评估。我们提出了对 “公平解释” 的特征进行表征,即不对特定人群产生负面影响的解释。我们提出了一种新颖的 “公平解释” 评估方法,不仅基于准确 - EMNLP为何应删除此文章?多语言维基百科编辑讨论中的透明立场检测
通过构建多语言数据集和联合预测模型,该研究提供了透明化内容审查的决策过程,以提高在线平台上内容的透明度和自动化审查研究的进展。
- 反犹太主义有多毒?自动化评分反犹在线内容的潜力和局限
使用手动注释的德语数据集,这篇论文研究了 Google 和 Jigsaw 的 Perspective API 在检测反犹太主义在线内容方面的潜力和局限性,并发现它在基本水平上能够识别反犹内容为有毒,但对于隐晦形式的反犹主义和批评立场的文本显 - 将大型语言模型应用于内容审核:数据工程和监督微调中的陷阱
介绍如何微调一种可以私下部署用于内容审核的大型语言模型,并讨论在微调过程中是否融入原因会更好,以及利用更强大的语言模型生成的原因对私下部署模型进行微调的好处和处理不正确答案时的不同处理方法。向研究人员提供有价值的经验。
- 谨言慎行:大型语言模型与内容管理
大型语言模型在内容审核中表现出的强大能力备受关注,本研究通过评估一系列商用的现代语言模型(GPT-3,GPT-3.5,GPT-4),在基于规则的社区审核和毒性内容检测两个常见任务中发现,这些模型在许多社区的审核上表现出很高的准确性和精确度, - ICML更快、更轻、更准确:用于内容审核的深度学习集成
基于简化的视觉特征,我们提出了一个高效且轻量级的深度分类集成结构,以解决对高准确率分类具有低误报的暴力内容的需求。通过使用一组轻量级模型进行颜色特征的缩减,并应用于图像和视频,我们评估了该方法并与常用的深度学习模型进行了比较,结果显示了预测 - ACL以实例为依据:利用逻辑规则进行可解释的仇恨言论检测
使用规则为基础的对比学习方法,称为 RBE,能够学习丰富的规则嵌入表示,优于深度学习分类器,并且通过规则基础提供可解释的模型预测。
- 改善 LLM 的安全对齐:基于人类偏好数据的探索
介绍了 BeaverTails 数据集,用于促进大型语言模型(LLMs)中的安全一致性研究。该数据集独特地区分了有关问答对的有用性和无害性的注释,因此可以从不同的角度对这些关键属性进行分析。总共编制了 30,207 个问答对的安全元标签,并 - CVPR生成模型内容审查的安全性与公正性
本研究提出了一个理论框架来对文本到图像生成技术进行负责任的内容管理,其中包括了定义并区分了安全、公平和度量公平的概念,并且详细列举了可能出现的伤害案例,并提供了如何量化所定义的危害的实证演示,用数据驱动的内容管理决策来实现量化危害的操作。
- IJCAI评估 GPT-3 生成的针对仇恨性内容审核的说明
本研究通过对使用大型语言模型对仇恨言论生成解释的分析框架的提出以及对 2400 位受访者的调查,发现生成的解释在语言流畅性、信息量、说服力和逻辑准确性方面都获得了高评价,但不同提示策略会影响解释的说服力,可能会导致对内容是否仇恨的错误判断。 - 通过语义融合验证多媒体内容审核软件
介绍了语义融合、一个用于验证多媒体内容审查软件的通用有效方法,将现有单模输入融合成具有毒性构造的新输入,用于验证多媒体内容审查软件。通过实验结果表明该方法提高了模型的鲁棒性和错误发现率。
- 偏见 X:对含有社会隐含偏见的有害内容进行 “缓慢思考” 辅助管理
引入 BiasX 框架,通过大规模的众包用户研究,探索使用自由文本解释内容中隐含的社会偏见,以有效增强内容审核设置,我们发现,参与者因正确识别微妙的(非)有毒内容而受益。解释的质量很关键,完美的机器生成解释(+2.4% 的有毒难题)帮助不如 - 视觉 - 语言模型评述及其在恶意模因挑战中的表现
提高社交媒体内容的自动审查效率,本文探讨了不同的模型并比较其在内容分类上的效果,结果表明,早期融合模型中 CLIP 表现最佳,其 AUROC 值为 70.06。
- BODEGA: 识别可信度中对抗样本生成的基准评估
本文介绍了一种基于文本分类的检测系统『BODEGA』,用于检测虚假新闻、社交媒体机器人和宣传等误导信息。另外,作者们系统地测试了主流文本分类器的鲁棒性,并发现在某些情况下,即使输入文本略作修改,也会误导分类器的判断。