BriefGPT.xyz
大模型
Ask
alpha
关键词
data mixture
搜索结果 - 4
RegMix: 以数据混合作为语言模型预训练的回归方法
使用回归模型自动识别高性能的数据混合,通过联合所有领域一起考虑以捕捉复杂性,RegMix 方法超过人工选择,并且仅使用 10%的计算预算实现与 DoReMi 相比匹配或更好的结果。
PDF
3 days ago
S3:一种简单而强大的样本有效的多模态对话系统
我们提出了一个在多模态对话任务中具有潜在简单但强大效果的基线系统 S3 模型,在 MMMU 和 AI Journey Contest 2023 两个激动人心的榜单上取得了接近最先进的成果。该系统基于一个预训练的大型语言模型,图像和音频的预训
→
PDF
8 days ago
面向扩展语言模型至 128K 上下文的数据工程
本研究探讨使用持续预训练重现将语言模型的上下文长度扩展到 128K,重点关注数据工程。我们假设长篇背景建模,特别是 “能够在任意输入位置利用信息” 的能力在大规模预训练中已经获得,而且这种能力可以通过对适当数据混合进行轻量级持续预训练来延伸
→
PDF
5 months ago
测试集上的预训练就足够了
通过精心策划的数据预训练,使用新颖的数据混合集,我们的 Transformer-based 语言模型 phi-CTNL 在多个学术基准测试中完美表现,并打破了已知基础模型的记录,同时还展现了前所未有的准确预测下游评估基准的能力。
PDF
10 months ago
Prev
Next