关键词model alignment
搜索结果 - 12
- HelpSteer2: 用于训练最佳奖励模型的开源数据集PDF22 days ago
- NeMo-Aligner:高效模型对齐的可扩展工具包PDF2 months ago
- 大型语言模型黑匣子揭秘:整体可解释性的两个视角PDF5 months ago
- 比对算法的机制性理解:以 DPO 和毒性为案例研究PDF6 months ago
- 通过模型对齐提高对抗性迁移能力PDF7 months ago
- 深度神经网络中的功能激活PDF8 months ago
- 大规模语言模型理解道德概念PDF8 months ago
- 通过利用生成技术实现对开源 LLMs 的灾难性越狱PDF9 months ago
- EMNLPSteerLM: 属性调节的 SFT 作为 (用户可操控的) 替代 RLHFPDF9 months ago
- 针对对抗引导的 LLM 安全性认证PDF10 months ago
- 自然语言处理模型协作开发PDFa year ago
- EMNLPALFRED 中的语态调整问题:你是否按照我说的在做?PDF3 years ago
Prev
Next