关键词toxic language
搜索结果 - 17
- 拆分、遗忘、合并:通过数据属性提升 LLM 中的更有效遗忘PDF19 days ago
- AAAI插入并玩:一种控制文本生成的提示调整方法PDF3 months ago
- MiMiC: 在表示空间中最小修改的反事实论证PDF5 months ago
- 社交媒体中的文本毒性:理解 Facebook 评论中表达的孟加拉毒性语言PDF7 months ago
- 大型语言模型伦理调优的韩语毒性指令数据集的自动构建PDF7 months ago
- 分析直播聊天中的规范违反PDFa year ago
- AAAI毒性检测评估框架:通过反馈评估毒性检测中的基本事实PDFa year ago
- ACL促进中文有害语言的细粒度检测:分层分类法、资源和基准PDFa year ago
- 临界视角:透视 API 中存在的陷阱的基准PDF2 years ago
- EMNLP走向程序公正:揭示有毒语言分类器使用情感信息中的偏见PDF2 years ago
- 基于推理时自适应优化的语言生成中的统一去毒化和去偏见处理PDF2 years ago
- 在混合对抗非对抗的情况下从数据中学习:找到帮手,忽略骗子PDF2 years ago
- AAAI驾驭内心恶魔:语言模型自我解毒PDF2 years ago
- EMNLP不予理睬:对话生成模型在攻击性场景中的立场分析PDF3 years ago
- ACL通过不变量合理化降低有害语言检测中的偏见PDF3 years ago
- ACL自动去偏见检测有害语言面临的挑战PDF3 years ago
- ACL少则得多:在数据稀缺的情况下提高有毒语言分类PDF4 years ago
Prev
Next