关键词training efficiency
搜索结果 - 129
  • CVPR连续学习中的自适应记忆回放
    PDF3 months ago
  • 减少截断改善语言建模
    PDF3 months ago
  • AntDT: 一种自适应的分布式培训框架用于领导者和延迟节点
    PDF3 months ago
  • 大规模模型训练在异构集群中的调度和并行化的协同设计
    PDF3 months ago
  • 分散式联邦学习中的初始化与拓扑效果
    PDF3 months ago
  • 专注于神经元:神经元级别的大语言模型有监督微调
    PDF4 months ago
  • 推广去噪至非平衡结构改善等变原子力场
    PDF4 months ago
  • PixArt-Σ: 4K 文字到图像生成的强弱训练扩散变压器
    PDF4 months ago
  • MegaScale:将大规模语言模型训练扩展至超过 10,000 个 GPU
    PDF4 months ago
  • 树木种植的变压器:具有隐式句法监督的大型语言模型
    PDF4 months ago
  • SPHINX-X:一个多模态大型语言模型系列的数据和参数扩展
    PDF5 months ago
  • 三元交互改进图变换器:基于三元图变换器的精确分子图学习
    PDF5 months ago
  • 时间、内存和参数高效的视觉适应
    PDF5 months ago
  • EE-Tuning: 基于经济且可伸缩的解决方案的早停调参大型语言模型
    PDF5 months ago
  • 为渐进式训练语言模型准备课程
    PDF6 months ago
  • 始终稀疏训练:引导随机探索下的连接增长
    PDF6 months ago
  • Unicron: 大规模经济化自愈 LLM 训练
    PDF6 months ago
  • 联邦学习中效率受限的效用隐私双目标优化的理论分析
    PDF6 months ago
  • 逻辑与学习之桥:一种增强神经模型推理能力的神经符号方法 (ASPER)
    PDF7 months ago
  • 通过多阶段框架和定制的多解码器结构提高扩散模型的效率
    PDF7 months ago