flops | BriefGPT - AI 论文速递

关键词flops

搜索结果 - 29

时间的重要性：适用于任意预算的规模定律
通过内存拷贝建立一种更准确的大型模型训练时间估算方法，利用超参数和缩放法可估计模型的最终损失并对模型进行架构决策和更高效的训练。
PDF7 days ago
大规模语言模型引导的文档选择
LLM 预训练模型通过精心选择文档，可以在仅使用部分 FLOPs 的情况下实现与完整训练相当的模型质量；通过使用提示的 LLM 作为文档评分器，我们将质量标签提取并应用于大规模的互联网抓取数据集，以自动筛除部分文档，从而更好地匹配性能，并通
PDFa month ago
CVPR第九届 NTIRE 2024 高效超分辨率挑战报告
该论文综述了 NTIRE 2024 挑战赛，重点关注高效单图像超分辨率（ESR）解决方案及其结果，并提供了基于低分辨率和对应高分辨率图像对的放大因子为 x4 的输入图像进行超分辨率处理的任务描述。
PDF3 months ago
混合深度：在基于 Transformer 的语言模型中动态分配计算资源
本文通过动态分配计算资源到序列的特定位置，优化了模型深度中不同层级的计算分配，从而实现了对计算资源的灵活分配和预测性控制。这种方法在保持总计算预算的同时，能够以非均匀的方式在时间和模型深度维度上高效地分配计算资源，并且以相当于基准性能的情况
PDF3 months ago
FALCON: 面向神经网络剪枝的 FLOP 感知组合优化
神经网络的计算需求逐渐增加，同时对资源有限的设备提出了部署挑战。网络剪枝是在保持性能的同时减小模型大小和计算成本的解决方案。本文提出了 FALCON，一种基于组合优化的网络剪枝框架，同时考虑了模型准确性、FLOPs 和稀疏性约束。我们的算法
PDF4 months ago
conv_einsum：卷积张量神经网络中多线性操作的表示和快速计算框架
这篇论文提出了一种用于表示张量卷积层的统一框架，以及一种能够以最小化浮点操作数（FLOPs）的方式评估这些框架的方法，实验证明 conv_einsum 显著提高了卷积张量网络的计算和内存效率。
PDF6 months ago
选择哪种 Transformer：视觉 Transformer 效率的比较分析
对视觉 Transformer 及相关架构的效率进行了综合分析，揭示了一系列有趣的见解，例如发现 ViT 在多个效率度量标准上仍然是最佳选择，同时低推理内存和参数数量时，混合注意力 - CNN 模型表现良好，模型大小的缩放比图像大小更为重要
PDFa year ago
利用 $L_1/L_2$ 正则化潜在变量压缩端到端神经网络
提出了一种通过优化模型的浮点运算次数（FLOPs）或设备延迟来进行前馈神经网络（NN）压缩的端到端技术，可以与多种流行的压缩方法一起使用，并且需要比 NAS 方法少得多的训练计算，可以实现大幅度的压缩而仍保持准确性。
PDFa year ago
RATs-NAS: GCN 上相邻路径重定向的神经网络架构搜索
本文介绍了图卷积网络（GCN）和多层感知机（MLP）上邻接操作轨迹之间的差异，并提出了 RATs-NAS 来快速搜索所需的神经网络架构。RATs-NAS 由 Redirected Adjacent Trails GCN（RATs-GCN）和
PDFa year ago
视觉异常分割的神经结构搜索
本文介绍了 AutoPatch，将神经架构搜索应用到分割视觉异常的复杂任务中。提出了加权平均精度（wAP）作为替代 AUROC 和 AUPRO 的度量标准，并提出了一种新的神经架构搜索方法，能够在没有任何训练的情况下高效地进行视觉异常分割。
PDFa year ago
ECCVScaleNet: 寻找可扩展模型
本文提出了 ScaleNet 模型，结合了基模型和缩放策略的搜索，利用马尔科夫链进化算法互动学习基模型的缩放策略来发展具有更加优异性能的大型模型，实验结果表明我们的放大网络在各种 FLOPs 上具有显着的性能优势，但搜索成本至少降低了 2.
PDF2 years ago
基于设计的基本单元叠加的紧凑神经网络
提出了一种新方法 TissueNet，它通过独立堆叠设计的基本构件来直接构建紧凑的神经网络，无需额外的判断条件，可以实现相当的分类准确度，同时可以节省高达 80％ FLOPs 和 89.7％参数，是一种神经网络压缩的新方法。
PDF2 years ago
CVPRCNN 模型压缩的通道探索 (CHex)
提出了一种名为 CHEX 的新型通道探索方法，使用 CSS 解决层内的通道修剪问题，使用回归阶段解决层间的动态重新分配通道数量的问题。所有探索过程都是在单次训练中完成的，实验结果表明，CHEX 可以有效地减少各种 CNN 架构的 FLOPs
PDF2 years ago
使用 Tucker 分解压缩视频中的 CNN 内核：走向轻量级 CNN 应用
该研究使用 Tucker 分解对预训练卷积网络的卷积核进行压缩，以在移动设备上应用于视频数据并降低网络复杂度，在 THETIS 数据集上进行测试，结果表明比较相似的准确度，但相对于内存压缩的因子高达 51 倍，而实际计算速度提升却不足预期
PDF2 years ago
CVPRClassSR：一种利用数据特征加速超分辨率网络的通用框架
本文提出了一种新的基于 Classification 和 SR 模块的解决方案管道 (ClassSR)，可以在处理大型图像时加速超分辨率 (SR) 网络，通过分类不同的子图像并选择不同的 SR 网络对其进行处理，实现了分类和超分辨率的统一框
PDF3 years ago
ICMLRicciNets: 利用 Ricci Flow 进行曲率引导修剪的高性能神经网络
提出了一种在训练之前识别随机连接神经网络中显著计算路径的新方法，该计算图根据本地图测量定义的节点质量概率函数进行修剪，并由基于强化学习的控制神经网络产生的超参数进行加权。使用 Ricci 曲率的定义来删除低重要性的边。该方法显示出几乎 35
PDF4 years ago
ECCVEagleEye：高效神经网络剪枝的快速子网络评估
本文提出了一种名为 EagleEye 的剪枝算法，利用简单且高效的自适应批量归一化评估方法来加速识别潜在精度最高的剪枝候选项，从而更好地裁剪神经网络。在 MobileNet V1 和 ResNet-50 等模型中进行实验表明，EagleEy
PDF4 years ago
当集成较小的模型比单个大模型更高效时
本文研究使用 ensemble 方法来提高模型性能的有效性，实验结果表明，与单个模型相比，用 ensemble 组合模型在准确率和计算效率上有更好的表现，并提出 ensemble 模型作为模型推理速度和准确性之间的灵活权衡。
PDF4 years ago
CVPRTEA：用于动作识别的时间激发和聚合
本文提出了一个时空激发和聚集（TEA）块，包括运动激发（ME）模块和多重时空聚合（MTA）模块，专门设计来捕捉短期和长期的时空演变。该方法在几个动作识别基准测试中取得了令人印象深刻的成果，证明了其有效性和高效性。
PDF4 years ago
篡改彩票：使所有彩票获奖
本论文提出了一种方法来训练稀疏神经网络，使其在训练过程中保持固定参数数量和固定的计算成本，同时不损失相对于现有密集到稀疏训练方法的准确性，该方法通过使用参数大小和不频繁的梯度计算来更新稀疏网络的拓扑结构。在多种网络和数据集上，我们展示了稀疏
PDF5 years ago