BriefGPT.xyz
大模型
Ask
alpha
关键词
markov-chain monte carlo algorithm
搜索结果 - 1
通过潜变量推断训练思维链
大型语言模型通过使用 ``思维链 '' 提示以逐步解决问题的方式更准确地解释,一种监督微调的方法是通过使用可调参数的梯度上升来最大化标记训练集中正确答案的平均对数似然。然而,我们提出了一种微调策略,尝试通过使用思维链提示最大化生成正确答案的
→
PDF
7 months ago
Prev
Next