关键词toxicity reduction
搜索结果 - 12
  • 多目标解码时间语言模型对齐
    PDF8 days ago
  • DeTox: 模型编辑的有毒子空间投影
    PDFa month ago
  • 微小的改进引发韧性:朝着高效的前缀模型抵御 LLM 红队行动
    PDFa month ago
  • 比对算法的机制性理解:以 DPO 和毒性为案例研究
    PDF6 months ago
  • EMNLPGTA:门控毒性避免与语言模型性能保护
    PDF7 months ago
  • 通过语言模型算术控制文本生成
    PDF7 months ago
  • CRITIC:大型语言模型可通过工具交互式批评进行自我修正
    PDFa year ago
  • 学会不学习:聊天机器人生成安全的探索
    PDFa year ago
  • ACL预训练中添加指导:控制语言模型毒性的有效方式
    PDFa year ago
  • 通过提示压缩和对比条件来控制和减少语言模型的可控性和毒性
    PDF2 years ago
  • 探索域自适应训练对于大规模语言模型去毒化的极限
    PDF2 years ago
  • GeDi: 生成式判别器引导序列生成
    PDF4 years ago
Prev
Next