关键词supervised fine-tuning
搜索结果 - 91
  • ULMA:统一语言模型对齐与演示与逐点人类偏好
    PDF7 months ago
  • 大规模语言模型的数据管理:一项调查
    PDF7 months ago
  • 通过潜变量推断训练思维链
    PDF7 months ago
  • ChatGPT 的一周年:开源大规模语言模型是否在迎头赶上?
    PDF7 months ago
  • ShareGPT4V:改进大型多模态模型的更好标题
    PDF8 months ago
  • 超越模仿:利用细粒度质量信号进行对齐
    PDF8 months ago
  • 语言模型之超级马里奥:从同源模型中吸收能力如午餐一般
    PDF8 months ago
  • 大规模语言模型驱动的对话代理的即插即用策略规划器
    PDF8 months ago
  • SuperHF:基于人类反馈的监督式迭代学习
    PDF8 months ago
  • LoBaSS:衡量监督微调数据的可学习性
    PDF9 months ago
  • KwaiYiiMath 技术报告
    PDF9 months ago
  • 理解 RLHF 对 LLM 泛化和多样性的影响
    PDF9 months ago
  • EMNLPSteerLM: 属性调节的 SFT 作为 (用户可操控的) 替代 RLHF
    PDF9 months ago
  • SALMON:自我对齐与遵循原则的奖励模型
    PDF9 months ago
  • OpenChat: 运用混合质量数据推进开源语言模型
    PDF10 months ago
  • VerilogEval:用于 Verilog 代码生成的大型语言模型的评估
    PDF10 months ago
  • 大语言模型的同时机器翻译
    PDF10 months ago
  • DISC-MedLLM: 连接通用大型语言模型与真实世界医学咨询
    PDF10 months ago
  • 对齐之毒
    PDF10 months ago
  • 指令标记:用于多样性和复杂性分析的标记技术
    PDFa year ago