parameter initialization | BriefGPT

关键词parameter initialization

搜索结果 - 10

重新思考微型语言模型的优化和架构
通过实证研究基于一个亿参数的小型语言模型，在神经网络结构、参数初始化和优化策略三个方面分析了每个组件的影响，找到了多个设计公式，如令牌压缩、结构微调、参数继承和多轮训练等，证实了它们对小型语言模型的有效性，进一步优化和改进模型的效果明显，验
PDF5 months ago
MultiLoRA: 提升多任务学习效果的 LoRA 民主化
提出了 MultiLoRA，通过减少 LoRA 中观察到的顶层奇异向量的主导性，通过水平扩展 LoRA 模块和改变适应矩阵的参数初始化来减少参数依赖性，从而产生更平衡的单元子空间，从而实现更好的多任务适应性。MultiLoRA 在多个基准和
PDF7 months ago
使用特定参数初始化的嵌入式特征相关性优化用于二 / 三维配准
本文提出了一种基于深度学习的框架 (COSPI) 解决 2D/3D 图像配准问题，包括参数初始化模块和细微注册网络，使用多尺度特征提取和特殊的训练技术，论文实验证明 COSPI 方法在精度和运行时间方面优于现有的学习和优化方法，具有很好的初
PDFa year ago
无限宽度三层神经网络的实验相图
该研究建立了一个三层无限宽度的神经网络参数初始化的相图，发现不同层的动态行为区别巨大，提供了对不同初始化条件下深度神经网络的研究指导。
PDF2 years ago
bert2BERT：面向可重用的预训练语言模型
本文提出了 bert2BERT，通过参数初始化有效地将现有较小的预训练模型（如 BRET_BASE）的知识转移到大型模型（如 BERT_LARGE），并通过提出高级知识进一步改进大型模型的初始化以及两阶段预训练方法，以此显着提高大型模型的预
PDF3 years ago
量子退火初始化量子近似优化算法
研究了 QAOA 在 MaxCut 问题上的优化问题，指出随机初始化容易陷入低级局部最小点，通过 Trotterized quantum annealing 协议实现参数初始化，并找到最佳的 Trotter 时间步长，这为在近期量子设备上实
PDF3 years ago
如何初始化网络？WeightNorm 和 ResNets 的鲁棒初始化
本文研究权重规范化神经网络的参数初始化策略，通过使用平均场近似方法，提出了一种新的参数初始化策略。通过超过 2500 次实验，本文展示了所提出的初始化方法在图像数据集上具有更好的泛化性能、超参数值鲁棒性和种子之间的变异性。而且，该初始化方法
PDF5 years ago
关于一阶元学习算法
本文主要研究元学习问题，即在任务分布情况下，如何获得在新的任务中表现良好、能够快速学习的智能体；分析了一系列算法，包括优化一阶导数的 MAML 和 Reptile 算法，对他们在少样本分类任务中表现良好的结果进行扩展和理论分析。
PDF6 years ago
MM双向语言建模在生物医学命名实体识别中的有效应用
本文研究了如何利用无标注文本数据来改善生物医学 NER 模型的性能，通过训练一个双向语言模型（BiLM）以预训练一个与 BiLM 相同结构的 NER 模型，结果表明这种方法能够显著提高模型性能，并且能够加快模型训练速度，减少训练样本数量。
PDF7 years ago
用于在线端到端语音识别系统的改进训练
提供了一种利用师生学习技术将离线的端到端语音识别模型的知识传递到在线端到端模型中的初始化策略，用以提高在线语音识别的准确性，并结合课程学习和标签平滑实现了更好的效果。在 Microsoft Cortana 的个人助手任务中，相比随机初始化基
PDF7 years ago