- 基于强化学习的适应性不更正场地 DRAM 错误抵制
本文提出了一种自适应方法来触发未纠正错误的缓解,该方法基于预测方法,考虑了未纠正错误的可能性和当前潜在成本。通过使用经典机器学习度量及成本效益分析评估了该方法,在 MareNostrum 超级计算机的两年生产日志中,与无缓解相比,我们的方法 - 扩容 Granite 代码模型至 128K 上下文
该论文介绍了长上下文 Granite 代码模型,它支持有效的长达 128K 令牌的上下文窗口。我们的解决方案通过逐渐增加 RoPE 基本频率,采用存储库级文件打包和长度上采样的长上下文数据的轻量级持续预训练,将 Granite 3B/8B - 利用数据图在大型机器人任务环境中扩展 3D 推理
该论文介绍了一种解决大规模多模态模型在广阔三维环境中扩展性问题的新方法,通过使用数据图结构和图遍历算法,可以提高三维场景语言任务的可扩展性。
- Transformer 中的加权分组查询注意力
我们提出了一种称为加权分组查询注意力(WGQA)的分组查询注意力的变体,引入了新的可学习参数来增强 T5 解码器注意力块中的键和值头,使模型能够在微调期间进行加权平均,并在推理过程中无需额外开销与传统的多头注意力(MHA)性能相当。
- ECCVDεpS: 延迟 ε- 收缩以加快全面训练
通过推迟部分训练的全模型收缩和动态调整子网络学习率的方法(DEpS),提出了一个可扩展的训练方案,以降低卷积神经网络的训练成本并实现更好的知识蒸馏效果。DEpS 在准确性和成本方面在不同数据集上优于现有的一次性训练技术。
- 跨參數調整與優化器的擴展指數
参数扩展研究中,我们提出了一种新的参数化视角,探究了前期研究中关于参数和数据对齐的关键假设,并在较弱的假设和更广泛的优化器集合下得出新的理论结果。实证研究结果表明,所有参数化方法都可以实现超参数迁移,我们为标准参数化提出了一个新的逐层学习率 - ScaleBiO: 面向 LLM 数据重新加权的可扩展的双层优化
本研究提出了第一种可扩展实例,称为 ScaleBiO,通过与一种称为 LISA 的新型算法相结合,使软件在八个 A40 GPU 上扩展到 34 亿参数的大型语言模型(LLM),标志着在实际应用场景中首次成功应用双层优化于大型 LLM。从实证 - RAVEN:多任务检索增强视觉 - 语言学习
该论文介绍了 RAVEN,一个多任务的检索增强视觉语言模型框架,通过有效的任务特定微调,无需额外的检索特定参数,该模型获得了在多个任务中都有效的检索能力,对图像字幕和 VQA 任务的广泛实验结果表明,与非检索基准线相比,在 MSCOCO 上 - Transformer 模型中的关键要素:并非所有的注意力都是必要的
通过使用基于相似性的度量标准,本文研究了 Transformer 中不同模块(如 Blocks、MLP 和 Attention 层)之间的冗余性变化,发现一大部分 Attention 层可以被安全剪枝,从而降低内存和计算成本,并提出了一种同 - 关键标记的重要性指标在 KV 缓存降低中,注意力分数不是唯一的所需:价值也很重要
通过使用注意力得分和值向量的 L1 范数来评估令牌的重要性,我们提出了一种新的方法:Value-Aware Token Pruning (VATP),它在 LLMs 中表现出卓越的性能。
- XLand-100B:大规模多任务数据集用于背景强化学习
通过构建 XLand-100B 数据集,该研究致力于解决在大规模环境中进行上下文强化学习时所面临的挑战,为进一步扩展和民主化该领域的研究提供坚实的基础。
- 预训练神经操作器的策略
针对偏微分方程(PDE)建模的预训练最近展现出在扩展神经算子跨数据集以提高泛化能力和性能方面的潜力。尽管取得了这些进展,我们对预训练如何影响神经算子的理解仍然有限;研究通常提出了定制的架构和数据集,使得比较和检查不同预训练框架变得困难。为了 - 通过统一框架解构混合专家的压缩
大规模语言模型的扩展已经在不同领域取得了革命性的性能,但模型规模的持续增长为实际应用带来了重大挑战。本文通过动态选择和激活仅一部分专家的混合专家(MoE)方法,显著减少计算成本同时保持高性能。我们提出了一个创新的统一框架来压缩 MoE,该框 - RoboCasa: 为通用机器人实现大规模模拟日常任务
人工智能的近期发展大多受到规模化的推动。在机器人学中,规模化受到获取大规模机器人数据集的限制。我们提倡使用逼真的物理仿真作为扩展环境、任务和数据集以用于机器人学习方法。我们提出了一个名为 RoboCasa 的大规模仿真框架,用于在日常环境中 - 快速而安全:带有风险控制的提前退出
通过应用风险控制机制,我们实现了针对早期停止神经网络(EENNs)的退出机制,在保持用户指定的性能目标的同时,大幅减少计算资源的使用。
- CuMo:多模态 LLM 与协同升级混合专家的扩展
CuMo 是一种在多模态大型语言模型上通过使用混合专家模块来提高模型性能的方法,其在可扩展性和推理成本方面的优势使其在各种可视问答和视觉指令遵循基准上超越了现有的多模态语言模型。
- 大型语言模型的时间尺度定律
最近,大型语言模型广泛应用于各种任务,对于如何扩展语言模型对其性能的影响的研究引起了越来越多的关注。本文提出了新概念的时间缩放定律,并研究了语言模型在时间维度上的损失。研究发现,尽管存在损失不平衡,语言模型在不同的令牌位置上学习是均匀的。通 - Tele-FLM 技术报告
大语言模型的扩展和效率提升方法的开放资源,以及展示优于其他模型的跨语言语言建模能力和核心设计。
- 关于分子图的 GNN 的可扩展性
我们研究了图神经网络的扩展行为,发现其在深度、宽度、分子数量、标签数量以及训练数据多样性上的扩展规律,取得了 30.25% 的性能改善(参数扩展至 10 亿)和 28.98% 的性能改善(数据集扩展至八倍)。此外,我们在 38 个任务上展示 - CVPR基于扩散的文本到图像生成的可扩展性研究
通过对缩放去噪网络骨干和训练集的广泛割离实验,本研究探讨了扩大规模的扩散式文本到图像(T2I)模型的特性,发现在模型扩展方面,跨向量关注的位置和数量对现有 UNet 设计的性能具有差异性,增加 Transformer 模块对于提高文本和图像