关键词toxicity reduction
搜索结果 - 12
- 多目标解码时间语言模型对齐PDF8 days ago
- DeTox: 模型编辑的有毒子空间投影PDFa month ago
- 微小的改进引发韧性:朝着高效的前缀模型抵御 LLM 红队行动PDFa month ago
- 比对算法的机制性理解:以 DPO 和毒性为案例研究PDF6 months ago
- EMNLPGTA:门控毒性避免与语言模型性能保护PDF7 months ago
- 通过语言模型算术控制文本生成PDF7 months ago
- CRITIC:大型语言模型可通过工具交互式批评进行自我修正PDFa year ago
- 学会不学习:聊天机器人生成安全的探索PDFa year ago
- ACL预训练中添加指导:控制语言模型毒性的有效方式PDFa year ago
- 通过提示压缩和对比条件来控制和减少语言模型的可控性和毒性PDF2 years ago
- 探索域自适应训练对于大规模语言模型去毒化的极限PDF2 years ago
- GeDi: 生成式判别器引导序列生成PDF4 years ago
Prev
Next