关键词toxicity
搜索结果 - 58
  • 朝着大规模多语言整体偏见
    PDF5 days ago
  • FrenchToxicityPrompts:法文文本中评估和缓解有害性的大型基准
    PDF9 days ago
  • 跨语言现实事件中的有毒性
    PDFa month ago
  • ACL对抗性数据预处理:减少对话代理中的毒性同时对连贯性和伪装性的影响最小化
    PDFa month ago
  • MBIAS: 大型语言模型中减轻偏见并保留上下文
    PDF2 months ago
  • 大型语言模型中毒性的实际评估
    PDF2 months ago
  • HATE 中的常数:在 Reddit 上跨主题和语言分析毒性
    PDF2 months ago
  • 衡量网络性别歧视的整体指标
    PDF3 months ago
  • 伦理学:在正交参数空间中修正语言模型
    PDF4 months ago
  • Aya 模型:一种指令微调的开放式多语言语言模型
    PDF5 months ago
  • 出版文本的社会进化与大型语言模型的出现及其毒性与偏见问题
    PDF5 months ago
  • ArthModel: 提升大型语言模型的算术技能
    PDF7 months ago
  • 开源语言模型的可信度 —— 恶意示范中的评估揭示了它们的脆弱性
    PDF8 months ago
  • 评分者分歧的分类:从在线毒性注释角度调查挑战与机遇
    PDF8 months ago
  • 关于自我纠正和语言模型信任的交叉问题
    PDF8 months ago
  • ChatGPT 毒性的全面评估
    PDF8 months ago
  • N-Critics: 大型语言模型的自我提升与评论家集成
    PDF8 months ago
  • 仅需演示:推进利用上下文学习进行攻击性内容转换
    PDF9 months ago
  • 语言模型中的系统性攻击性刻板印象偏差(SOS)
    PDF10 months ago
  • 理解开放域聊天机器人中的多轮有害行为
    PDFa year ago
Prev