关键词model alignment
搜索结果 - 12
  • HelpSteer2: 用于训练最佳奖励模型的开源数据集
    PDF22 days ago
  • NeMo-Aligner:高效模型对齐的可扩展工具包
    PDF2 months ago
  • 大型语言模型黑匣子揭秘:整体可解释性的两个视角
    PDF5 months ago
  • 比对算法的机制性理解:以 DPO 和毒性为案例研究
    PDF6 months ago
  • 通过模型对齐提高对抗性迁移能力
    PDF7 months ago
  • 深度神经网络中的功能激活
    PDF8 months ago
  • 大规模语言模型理解道德概念
    PDF8 months ago
  • 通过利用生成技术实现对开源 LLMs 的灾难性越狱
    PDF9 months ago
  • EMNLPSteerLM: 属性调节的 SFT 作为 (用户可操控的) 替代 RLHF
    PDF9 months ago
  • 针对对抗引导的 LLM 安全性认证
    PDF10 months ago
  • 自然语言处理模型协作开发
    PDFa year ago
  • EMNLPALFRED 中的语态调整问题:你是否按照我说的在做?
    PDF3 years ago
Prev
Next