- 加速图像分类器的小伙伴
使用轻量级的模型进行预测,然后仅通过困难样本对大模型进行求解的 Little-Big 算法能够显著减少计算量,实现对大型神经网络模型的压缩。
- 超越固定训练持续时间的尺度定律和计算优化训练
通过研究模型的规模和训练行为,本研究提出了常数学习率和冷却方法作为替代余弦调度的更简单且可预测可靠的训练方法,并发现随机权重平均可以在不增加额外训练成本的情况下改善训练过程中的性能,从而减少计算和 GPU 时间,实现规模实验的效率提升。
- CVPR显微镜遮蔽自编码器是可扩展的细胞生物学学习模型
在生物研究中,将显微镜图像分析成特征仍然是一个重大挑战。本研究探讨了弱监督分类器和自监督掩码自编码器(MAEs)在使用越来越大的模型和显微镜数据集进行训练时的伸缩性能。我们的研究结果表明,基于 ViT 的 MAEs 在多项任务上优于弱监督分 - 语音语言模型的规模特性
本文使用语言模型的扩展性行为来估计目前方法在训练中使用的计算规模下,会产生具有类似基于文本的大型语言模型的英语熟练度的语音语言模型。我们展示了语言模型和大型语言模型的预训练损失与下游句法和语义性能之间存在强相关性,从而导致语言性能的可预测扩 - 细粒度专家混合的比例尺定律
通过分析扩展的变量范围,我们建立了适用于细粒度混合专家模型的扩展规模定律,并利用这些规律为特定计算预算推导出最佳的训练配置,结果显示 Mixture of Experts 模型在规模和训练预算扩大时始终优于密集 Transformer 模型 - 图上的神经标度法则
通过研究深度图模型的扩展性,本文从模型和数据两个角度揭示了神经扩展定律,并提出了针对图数据的模型和数据扩展定律,为构建大规模图模型提供了重要见解。
- 大规模自回归图像模型的可扩展预训练
这篇论文介绍了 AIM,一种根据自回归目标预训练的视觉模型集合。这些模型受到了文本模型的启发,并展现了类似的规模扩展性。重点提到两个关键发现:(1)视觉特征的性能随模型容量和数据量的增加而提高,(2)目标函数的价值与模型在下游任务上的性能相 - 基于度的图神经网络节点分层
通过基于图节点的分层,将图神经网络 (GNNs) 中的节点分为低度和高度两组,并通过对每个组中的节点独立学习权重矩阵的方式进行简单修改,从而提高性能。
- CritiqueLLM: 扩展 LLM-as-Critic 以有效且可解释地评估大型语言模型生成
自然语言处理社区开始让大规模语言模型(如 GPT-4)扮演批评家以评估生成文本质量,大部分仅在特定数据集上训练特定规模的批判生成模型,我们认为缺乏对于基于语言模型评估模型的关键因素(如可扩展性特性)的全面调查,因此目前是否有潜力在实际场景中 - 基于深度学习扩散生成模型的湍流尺度缩放
利用基于扩散的生成模型学习湍流涡度轮廓的分布,生成与训练数据集不同的多样化湍流解,并分析新湍流轮廓的统计缩放特性、能量功率谱、速度概率分布函数和局部能量耗散矩。通过与已建立的湍流特性的一致性,该模型证明了其捕捉实际湍流关键特征的能力。
- 解锁可预测的增长能力
通过大规模采样在解码阶段引入 PassUntil 评估策略,本研究量化了任务性能的扩展规律并发现了突现能力的具体证据,从而推翻了有关突现能力产生的常见 “多步推理假设”,提出了一种符合观察到的扩展曲线的新假设。
- 自我批评模型用于辅助人类评估员
本文介绍了利用大型语言模型进行自然语言批判的方法,帮助人们更有效地检测摘要中的问题,并着重研究了批判能力的缩放特性和与生成能力和辨别能力的比较,为机器学习系统的监督提供了 AI 辅助人类反馈的概念证明。
- 神经机器翻译的规模定律
通过本文所提及的实证研究,我们揭示了神经机器翻译中,编码器 - 解码器 Transformer 模型的扩展特性。具体而言,本文提出了一个公式来描述交叉熵损失与编解码器大小的扩大倍数之间的关系,并在多种扩展方法及语言下展现了估计的准确性。我们 - 通过超几何图映射维持互联网
该研究针对互联网路由架构的成本日益增加提出了一种基于双曲空间映射的网络映射方法,并证实该方法使互联网路由具有近乎理论最优的缩放性能,同时也提供了一种复杂网络社区结构的不同视角。