hate speech | BriefGPT - AI 论文速递

关键词hate speech

搜索结果 - 194

IndoToxic2024：一份丰富人口统计数据集，用于印度尼西亚语的仇恨言论和毒性类型
印尼互联网仇恨言论和毒性分类数据集的全面介绍以及对利用 BERT 模型和 gpt-3.5-turbo 进行情感分析的结果和注意事项。
PDF7 days ago
COT：通过对比最优输运生成反对仇恨言论的方法
基于对比最优传输的新型框架有效地解决了生成对抗性叙述的目标互动和多样化方面的挑战，通过引入 Optimal Transport Kernel (OTK) 模块将仇恨目标信息融合到标记表示中，使用自对比学习模块生成各向异性分布的标记表示，通过
PDF16 days ago
HateDebias: 关于仇恨言论去偏见的多样性与可变性
社交媒体上的仇恨言论普遍存在且亟需控制，本研究提出了一个名为 HateDebias 的基准测试，旨在分析在不断变化的环境下仇恨言论检测模型的能力，通过收集不同类型偏见的现有数据集，并重新组织数据集以适应连续学习的设置，评估在单一类型偏见数据
PDFa month ago
ACL可解释性与仇恨言论：结构化解释提高社交媒体审核员的速度
通过研究，我们发现，结构化的解释能够降低现实世界的内容审查员的决策时间 7.4%，而通用解释对其速度没有影响且常被忽视。
PDFa month ago
MM网络评论中的辩论反对策略：分类模式的构建与训练验证
该研究对社交媒体上的有害言论进行了内容分析，发现人们在回应有害言论时采用了多种语言策略，其中声誉攻击是最常见的。该研究为表达反对意见提供了综合视角，并探讨了阻止冒犯性或有问题言论的基层努力。
PDF2 months ago
基于 Transformer 的大型语言模型检测反犹太主义仇恨言论
我们研究了替代性的基于变压器的生成型 AI 技术，并开发了一种新的数据标注技术，证明了这些先进方法在应对仇恨言论检测中的比较有效性，强调在敏感环境中需要负责任和谨慎管理的 AI 应用。
PDF2 months ago
ICLREkoHate: 针对尼日利亚 Twitter 上政治讨论的混合代码的辱骂性语言和仇恨言论检测
我们通过分析推特数据集，以二分类和四分类注释方式，对尼日利亚政治讨论中的辱骂性言论和仇恨言论进行了检测，并在监督学习和跨语言迁移学习设置下进行了实证评估，结果显示我们可以实现 95.1 和 70.3 的 F1 分数，同时我们还展示了我们的数
PDF2 months ago
探索边界和强度：揭示社交媒体言论的复杂范围
使用 8,258 条推特进行标注，该研究创建了一个广泛的 Amharic 基准数据集，用于三个任务：分类、识别仇恨目标和评估冒犯和仇恨的强度。结果显示，仇恨和冒犯性言论无法用简单的二元分类解决，并且在连续数值范围内变量化。Afro-XLMR
PDF3 months ago
弱监督因果解离下的跨平台仇恨言论检测
使用基于置信度的重新权重和对比正则化的方法，本研究提出了 HATE WATCH，这是一种弱监督因果分解的新型框架，可以绕过显式目标标签的需求，并有效地将输入特征分解为对仇恨言论具有不变性的表示。在两个带有目标标签和两个没有目标标签的平台上进
PDF3 months ago
OPSD：一种冒犯性波斯社交媒体数据集及其基准评估
该研究介绍了两个针对恶意评论和冒犯性言论的数据集，并使用先进的语言模型和机器学习算法进行了实验，以建立该数据集的基准，结果表明 XLM-RoBERTa 在该数据集上的 F1 分数分别为 76.9% 和 89.9%。
PDF3 months ago
隐含有害内容的目标跨度检测
通过收集并标注三个主要的暗含仇恨言论数据集（SBIC，DynaHate 和 IHC），我们定义了一个新的任务，旨在识别暗含仇恨言论的目标，并利用人类注释和大型语言模型（LLM）的匹配分数来实现这一目标。实验表明，Implicit-Targe
PDF3 months ago
中文恶意言语检测：现状与未来方向
监测和规范社交媒体平台上用户生成内容的努力虽然仍然在进行，但数字空间中令人不悦的语言（如仇恨言论或网络欺凌）的普遍存在仍然是一个重大挑战。本文全面概述了中文中令人不悦言语的检测，考察了当前的基准和方法，并强调了解决这种复杂语言中令人不悦言语
PDF3 months ago
应对仇恨言论的受约束大型语言模型
利用大型语言模型生成有限制条件的反抗言论，并研究其对在线环境的影响和生成方法的语言特征。
PDF3 months ago
细调预训练语言模型用于检测游戏中的垃圾言论
研究探讨了在线游戏中存在的有害行为和恶劣沟通问题，特别关注在线仇恨言论和毒性对玩家游戏表现和整体幸福感的影响。研究使用预训练语言模型来分类或检测游戏中的恶意言论和有毒信息，并评估了 BERT 和 GPT 语言模型在检测游戏内聊天中毒性的性能
PDF3 months ago
基于大型语言模型提取理由的可解释仇恨言论检测
为了解决社交媒体中的仇恨言论问题，本文提出使用最新的大型语言模型（LLMs）从文本中提取特征，以训练基于仇恨言论分类器，从而实现设计上的可信解释性。全面评估了多个社交媒体仇恨言论数据集，证明了 LLMs 提取的解释特征的优越性以及实现解释性
PDF3 months ago
憎恨源于无知！对抗言语仇恨中的说服方式归纳
评估反对仇恨言论的最佳方法，研究将说服模式分为理性、情感和可信度，并评估其在封闭和开放的对话互动中的使用，揭示不同模式在反对仇恨评论和话题层面上的微妙差异以及理性作为说服模式的支持回复更多的潜力。
PDF4 months ago
COLINGHarmPot：用于评估社交媒体文本离线伤害潜力的注释框架
开发了一个注释模式来构建数据集，以评估社交媒体文本的离线伤害潜力，不仅关注恶意言论或误导信息，还重点研究社交触发因素对在线内容造成的潜在伤害。
PDF4 months ago
基于多任务指令调优与 RLAIF 的意图条件和无毒抗辩生成
CoARL 是一种新颖的框架，通过模拟憎恨言论中社会偏见的语用含义，增强了对抗性言论生成，优于现有基准，得到了广泛的人工评估支持。
PDF4 months ago
COLING巴斯克语和西班牙语反叙事生成：数据创建与评估
Counter Narratives (CNs) are non-negative textual responses to Hate Speech (HS) aiming at defusing online hatred and mit
PDF4 months ago
可解释性布局对人类对冒犯性句子的感知是否有影响？
本文通过用户研究评估三种机器学习 (Machine Learning) 可解释性布局对参与者评估包含仇恨言论的句子时的影响，重点关注 “厌女症” 和 “种族主义” 类别。通过问卷调查的统计和定性分析提供在线社区中使用机器学习可解释性的经验证
PDF4 months ago