BriefGPT.xyz
Ask
alpha
关键词
training recipe
搜索结果 - 3
揭示无编码器的视觉 - 语言模型
在这项研究中,我们提出了一种简单而有效的训练方法,实现了没有视觉编码器的纯视觉语言模型,并通过桥接视觉语言表示和增强视觉识别能力的策略推出了 EVE 模型,它在多个视觉语言基准测试中显著优于采用类似容量的基于编码器的 VLMs。
PDF
19 days ago
LongSkywork:用于大型语言模型中高效扩展上下文长度的训练方法
LongSkywork 是一种具有长上下文处理能力的大型语言模型 (LLM),通过在标准 SFT 阶段之后添加长上下文 SFT 阶段来增强长上下文处理能力,使用合成数据的方法显著提高了训练效率,并在各种长上下文基准测试中取得了出色的表现。
PDF
a month ago
MosaicBERT:用于快速预训练优化的双向编码器
MosaicBERT 是一种优化用于快速预训练的 BERT 风格编码器架构和训练方法,包括 FlashAttention、ALiBi、GLU、动态去除填充令牌的模块和低精度 LayerNorm 等,基于 C4 数据集,该基础模型在 8 个
→
PDF
6 months ago
Prev
Next