BriefGPT.xyz
Ask
alpha
关键词
gradient variance reduction
搜索结果 - 2
多样本流匹配:用小批量耦合直线化流
通过非简单合并数据和噪声样本的 Multisample Flow Matching 算法,我们可以在完全不需要模拟的情况下,通过一个简单的最小化目标函数构造概率路径,实现连续时间生成模型训练参数、生成高质量样本和高维传输映射等目标的综合优化
→
PDF
a year ago
通过掩码提议网络实现方差减少的语言预训练
针对自监督学习在自然语言处理中的重要性,本文提出了一种基于梯度方差缩减的方法,通过引入重要性采样策略,利用 MAsk Proposal Network(MAPNet)进行优化,从而实现更高效的预训练并取得了比基础 BERT 模型更高的性能。
PDF
4 years ago
Prev
Next