model capacity | BriefGPT - AI 论文速递

关键词model capacity

搜索结果 - 43

ICML基于张量分解的二阶循环神经网络视角
通过对第二阶递归神经网络的参数化使用 CP 分解得到的模型 CPRNN 进行研究，我们分析了分解的秩和隐藏层大小如何影响模型的容量，并根据这些参数展示了循环神经网络、二阶递归神经网络、限制型二阶递归神经网络和 CPRNN 之间的关系。我们通
PDFa month ago
通过豪斯荷尔德反射自适应缩小低秩与正交适应之间的差距
基于 Householder 反射的正交微调方法在适应大规模预训练模型方面表现出优越的性能，具有更少的可学习参数。
PDFa month ago
多层特征聚合与递归对齐网络在实时语义分割中的应用
通过引入多级特征聚合和递归对齐网络 (MFARANet)，在实时推理速度下实现高分割准确度；利用 ResNet-18 作为骨干网络并提出三个核心组件来弥补由于骨干网络较浅导致的模型容量不足；在三个基准数据集上进行了综合实验，结果表明我们的方
PDF5 months ago
初始化时剪枝的信息论障碍
彩票模型的存在考虑了深度学习中是否需要大型模型以及是否可以快速识别和训练稀疏网络，而无需训练包含它们的稠密模型。通过对彩票模型的理论解释，揭示了稀疏网络需要依赖于数据的遮罩来稳定插值噪声数据。研究证实了训练过程中获取的信息可以影响模型容量。
PDF5 months ago
模型压缩与对抗鲁棒性的关系：当前证据综述
增加模型容量是增强深度学习网络对抗性鲁棒性的已知方法之一，而剪枝和量化等压缩技术则可以减小网络的大小同时保持准确性。本研究总结了现有证据并讨论了观察到的效果可能的解释。
PDF7 months ago
杯子课程：模型容量的课程学习
通过应用一种专门的学习策略，课程学习旨在提高学习者在给定任务上的表现，可以关注数据集、任务或模型。然而，在自然语言处理中，关于在模型容量上应用课程学习的研究还很少。为了弥补这一空白，我们提出了杯子课程学习方法。在训练的第一阶段，我们采用了迭
PDF8 months ago
ICCVMOFA：适用于移动设备图像修复的模型简化路线图
通过在不敏感的层上添加更多参数，然后应用部分深度卷积以及降采样 / 升采样层来加速模型速度，本文提出了一种能够进一步加快图像恢复模型部署效率的方法，同时提高了图像恢复数据集中的峰值信噪比（PSNR）和结构相似性指数（SSIM）。
PDF10 months ago
全波形反演是否从大数据中获益？
通过对大数据对深度学习模型在全波形反演（FWI）中的影响的调查研究，揭示了大数据对 FWI 中的深度学习模型的性能和泛化能力的改善效果。同时，研究表明模型的容量需要根据数据的规模进行相应的调整以达到最佳的改进效果。
PDFa year ago
隐式模型再探：Weight-tied 模型在视觉任务中的稀疏性能权衡
本研究重访了隐式模型的路线并将其追溯到最初的权重绑定模型，并提出使用不同的稀疏掩码来改善模型容量，在权重绑定模型中提供有关深度、宽度和稀疏选择的设计指导，并展示了我们的观察结果对其他学习范例的适用性。
PDFa year ago
ICML扩展球形卷积网络
这篇研究论文介绍了如何通过提出新的模型组件、实现核心操作以及应用特定输入表示等关键改进来扩展球面 CNN，使其可用于更大规模的问题并在 QM9 分子基准测试的多个目标上达到最新水平，在多个天气预测任务中实现竞争性表现。
PDFa year ago
高效 SBIR 模型的配方：将相对三元组损失与批量归一化和知识蒸馏相结合
本研究从多个角度探讨了手绘图像检索领域中存在的问题，并通过提出 Relative Triplet Loss、使用 batch normalization、调整模型容量和知识蒸馏等方法，实现了优化模型并提升了图像检索的表现。
PDFa year ago
ACL为多语机器翻译学习特定语言层
介绍了一种通过引入语言特定的变压器层来增加模型容量、提高翻译质量的方法，并通过神经架构搜索实现最佳层次排列，从而在不增加计算量和参数数量的情况下，提升 1.3 chrF (1.5 spBLEU) 或 1.9 chrF (2.2 spBLEU
PDFa year ago
ICML指导调整期间的语言模型中毒
本研究表明对 instruction-tuned LMs 输入恶意抽样将导致模型预测失准，大型 LMs 在此方面更易受攻击，而基于数据过滤或减少模型容量的防御措施提供的保护有限，同时会降低测试准确性。
PDFa year ago
基于 Transformer 的语言模型惊奇度在使用约 20 亿训练令牌时最能预测人类阅读时间
本文研究了基于 Transformer 的语言模型中，各种训练数据和不同容量的模型对于预测人类阅读时间的作用，并发现多数具有当代模型能力的变体，使用约 20 亿个训练标记后，所给出的 surprisal estimates 提供了最佳适合度
PDFa year ago
CVPR基于学生 - 教师模型的去泛化自编码器知识蒸馏
该研究提出了一种通用到特定蒸馏法 (G2SD)，以在受掩膜自编码器预训练的大型模型的监督下激发小型 ViT 模型的潜力，从而在图像分类、目标检测和语义分割任务上设置了坚实的基线。
PDFa year ago
高效 Transformer 的交替更新
本文介绍了一种名为 AltUp 的方法，通过在表示层的子块上工作来拓宽学到的表示，从而实现所谓的 Alternating Updates，提高了模型容量而无需增加计算成本，并与现有方法结合以获得更高效的模型。
PDFa year ago
CVPR语义分割模型的校准：分析与算法
研究了语义分割校准的问题，提出了一种简单而有效的选择性缩放方法来校准模型，实验结果表明其在多个基准测试中具有卓越的性能。
PDF2 years ago
ICLR不联机 Q 学习在多样化的多任务数据上进行同时扩展和泛化
本文提出提高离线强化学习性能的方法：使用 ResNets、基于交叉熵的分布备份、特征标准化，取得了良好的性能和容量扩展性。同时，作者展示了通过多样化数据集的离线 Q 学习可以学习到有用的表示，并实现快速传输到新游戏和在线学习的目标。
PDF2 years ago
AAAI原型微调：实现在数据大小变化下的强大性能
本文提出了原型微调框架，结合大的参数模型和非参数模型，通过对预训练语言模型进行微调，自动学习偏差，提高预测性能，并提出了四个原则，以向最优解效果调整原型。实验结果表明，在各种低资源情况下，我们的方法在不降低性能的情况下取得了显着的性能提升。
PDF2 years ago
通过修剪和生长来实现稀疏概率电路
使用剪枝和增长方法，可以大幅提高概率电路的学习性能和模型容量使用效率。
PDF2 years ago