BriefGPT.xyz
大模型
Ask
alpha
关键词
alignment with human preference
搜索结果 - 2
ACL
超越英语的 LLMs:通过跨语言反馈扩展 LLMs 的多语言能力
通过构建两个数据集,将 LLaMA 和 BLOOM 的多语言能力扩展到 100 种语言,并使用 DPO 算法对 LLMs 进行与人类反馈的对齐,实现了对 100 种语言的支持,从而定义了最新的、支持 100 种语言的多语言 LLMs 的最新
→
PDF
a month ago
从弱到强的外推加速对准
通过 ExPO 方法,我们展示了将训练数据较少的模型推向或超越完全训练模型的可能性,同时在不同模型规模上显示出合理的可伸缩性,这表明模型外推在发掘大型语言模型能力方面具有潜力,值得未来探索。
PDF
2 months ago
Prev
Next