可解释性布局对人类对冒犯性句子的感知是否有影响？

Mar, 2024

可解释性布局对人类对冒犯性句子的感知是否有影响？

Can Interpretability Layouts Influence Human Perception of Offensive Sentences?

Thiago Freitas dos Santos, Nardine Osman, Marco Schorlemmer

TL;DR本文通过用户研究评估三种机器学习 (Machine Learning) 可解释性布局对参与者评估包含仇恨言论的句子时的影响，重点关注 “厌女症” 和 “种族主义” 类别。通过问卷调查的统计和定性分析提供在线社区中使用机器学习可解释性的经验证据。统计分析结果显示，可解释性布局对参与者观点没有显著影响，但定性分析结果表明机器学习可解释性的优点：1) 在参与者观点和模型之间存在差异时，触发参与者提供纠正性反馈；2) 提供超越传统性能指标评估模型行为的见解。

Abstract

This paper conducts a user study to assess whether three machine learning (ML) interpretability layouts can influence participants' views when evaluating sentences containing hate speech, focusing on the "misogyny

machine learning interpretability hate speech misogyny racism online communities

发现论文，激发创造

使用模型无关的方法解释仇恨言论分类

本文研究了如何使用 BERT 模型和 LIME 算法来预测和解释仇恨言论，并提出了一种模型无关的解释方法，以支持系统的决策并防止模型偏差。

May, 2023

基于大型语言模型提取理由的可解释仇恨言论检测

为了解决社交媒体中的仇恨言论问题，本文提出使用最新的大型语言模型（LLMs）从文本中提取特征，以训练基于仇恨言论分类器，从而实现设计上的可信解释性。全面评估了多个社交媒体仇恨言论数据集，证明了 LLMs 提取的解释特征的优越性以及实现解释性后依然保持良好性能的惊人结果。

Mar, 2024

社交媒体仇恨言论检测的迁移学习

本文介绍了一种机器学习和自然语言处理模型，通过自动识别网页文本中的仇恨言论以及利用迁移学习技术构建了一个识别仇恨言论的表示方法，并开发了一个可视化工具用于多个数据集的简要分析。

Jun, 2019

利用可解释性设计对抗攻击并评估仇恨言论检测模型的攻击韧性

本研究综合并比较了各种仇恨言论检测模型的鲁棒性，并使用可解释性技术评估了这些模型对抗性攻击的鲁棒性，从而发现了一些潜在的漏洞和强项，并为创建更加鲁棒和可靠的检测系统打下了基础。

May, 2023

基于大型语言模型的在线仇恨言论、错误信息和普遍心理健康的拓扑数据映射研究

社交媒体上的仇恨言论和错误信息与心理健康之间存在关联，使用机器学习和大型语言模型，从 Reddit 等社区获取数据并进行分析，揭示了它们在社区中的作用及其与心理障碍和整体心理健康之间的联系。

Sep, 2023

评估 GPT-3 生成的针对仇恨性内容审核的说明

本研究通过对使用大型语言模型对仇恨言论生成解释的分析框架的提出以及对 2400 位受访者的调查，发现生成的解释在语言流畅性、信息量、说服力和逻辑准确性方面都获得了高评价，但不同提示策略会影响解释的说服力，可能会导致对内容是否仇恨的错误判断。因此，在内容审核中应谨慎使用大型语言模型 - generated 的解释。

May, 2023

减轻人为偏见的冒犯性语言检测的语言模式开发

通过语言数据扩增方法，减少标注过程中的偏见，借助机器的力量提高标注过程的准确性和公平性，以改善跨多种语言的冒犯性语言分类任务，并减少社交媒体上冒犯性内容的传播。

Dec, 2023

迈向 “公正解释” 的概念化：针对内容审核员的反亚裔仇恨言论解释的不对称影响

最近在 AI 可解释性和公平性交叉领域的研究集中在解释如何提高人类加 AI 任务性能，以公平性指标评估。我们提出了对 “公平解释” 的特征进行表征，即不对特定人群产生负面影响的解释。我们提出了一种新颖的 “公平解释” 评估方法，不仅基于准确率和标签时间，还考虑了解释对不同用户群体的心理影响（心理不适，刻板印象激活和感知工作负荷）的多个指标。我们将该方法应用于潜在的仇恨言论的内容审查，以及其对亚洲和非亚洲代理审查员的差异影响，包括解释方法（显著性地图和反事实解释）。我们发现，显著性地图通常表现更好，显示出较少的不公平证据（群体和个体）比反事实解释。

Oct, 2023

数据和机器学习算法中种族偏见对用户说服力和歧视性决策的因果影响：实证研究

AI/NLP models trained on racially biased datasets demonstrate various types of bias, raising profound ethical implications regarding the impact of these models on user experience and decision-making due to the presence of racial bias features in datasets. The research implicates a negative influence on users' persuasiveness due to unexplainable discriminatory outcomes, calling for responsible AI frameworks within organizations.

Jan, 2022

网络有害言论的多维度识别视角：不只是仇恨

本文介绍了一种使用多个标签注释恶意在线言论的方法，强调了注释应该是细致、准确的。作者发布了一个高质量的数据集，使用六个标签注释了超过 40,000 条有关移民的推文，在此数据集上训练模型的表现优于基准数据集。

Oct, 2022