关键词content moderation
搜索结果 - 61
  • 视觉程序蒸馏:将工具和编程推理融入视觉 - 语言模型
    PDF7 months ago
  • 全球声音的和谐:文化感知模型对增强内容审查的贡献
    PDF7 months ago
  • 评估对志愿内容管理员的支持,不仅仅是毒性检测
    PDF8 months ago
  • 在线冲突的维度:朝向拟模拟对抗的建模
    PDF8 months ago
  • 跨多元社群中有毒评论识别的主观建模(通过模仿标注者注释)
    PDF8 months ago
  • CLAIMSCAN-2023: 社交媒体中揭示真相的概述 —— 通过索引主张的检测和识别
    PDF8 months ago
  • EMNLP迈向 “公正解释” 的概念化:针对内容审核员的反亚裔仇恨言论解释的不对称影响
    PDF8 months ago
  • EMNLP为何应删除此文章?多语言维基百科编辑讨论中的透明立场检测
    PDF9 months ago
  • 反犹太主义有多毒?自动化评分反犹在线内容的潜力和局限
    PDF9 months ago
  • 将大型语言模型应用于内容审核:数据工程和监督微调中的陷阱
    PDF9 months ago
  • 谨言慎行:大型语言模型与内容管理
    PDF9 months ago
  • ICML更快、更轻、更准确:用于内容审核的深度学习集成
    PDF10 months ago
  • ACL以实例为依据:利用逻辑规则进行可解释的仇恨言论检测
    PDFa year ago
  • 改善 LLM 的安全对齐:基于人类偏好数据的探索
    PDFa year ago
  • CVPR生成模型内容审查的安全性与公正性
    PDFa year ago
  • IJCAI评估 GPT-3 生成的针对仇恨性内容审核的说明
    PDFa year ago
  • 通过语义融合验证多媒体内容审核软件
    PDFa year ago
  • 偏见 X:对含有社会隐含偏见的有害内容进行 “缓慢思考” 辅助管理
    PDFa year ago
  • 视觉 - 语言模型评述及其在恶意模因挑战中的表现
    PDFa year ago
  • BODEGA: 识别可信度中对抗样本生成的基准评估
    PDFa year ago