关键词marginal log-likelihood
搜索结果 - 2
- 通过潜变量推断训练思维链
大型语言模型通过使用 ``思维链 '' 提示以逐步解决问题的方式更准确地解释,一种监督微调的方法是通过使用可调参数的梯度上升来最大化标记训练集中正确答案的平均对数似然。然而,我们提出了一种微调策略,尝试通过使用思维链提示最大化生成正确答案的 - ICLRHelmholtz 机器的共同随机逼近学习
本文描述了一种新型基于随机逼近理论 (Robbins-Monro type) 的算法,直接优化边缘对数似然并同时最小化 KL 散度,以便更好地学习和应用针对离散隐藏变量的深度生成模型,称为联合随机逼近算法 (JSA),并构建了一个有效的 M