BriefGPT.xyz
大模型
Ask
alpha
关键词
shared parameters
搜索结果 - 5
简单分层模型的摊余变分推断
本论文提出了使用摊销方法的变分推断,使用共享参数同时表示所有本地分布,类似于使用完整高斯联合分布,但可在数个数量级更大的数据集上实现,速度大大快于使用结构化变分分布。
PDF
3 years ago
使用正交梯度对深度多任务网络进行规范化
本文提出了一种新的梯度正则化方法,旨在通过强制近似正交梯度来减少任务干扰,评估结果表明该方法在多任务学习中取得了竞争性结果。
PDF
5 years ago
ACL
预训练语言模型中新兴的跨语言结构
通过研究多语言掩码语言建模问题,我们阐述了若干因素,即为何这些模型在跨语言转移方面如此有效,并证明了即使单语料库之间没有共享词汇,也可以进行转移,只需在多语言编码器顶层存在一些共享参数。同时,我们展示了来自不同语言、独立训练模型的表示可以很
→
PDF
5 years ago
ICML
元学习快速上下文适应
提出了 CAVIA 以进行元学习,这是 MAML 的一种简单扩展,它不容易出现元过拟合,易于并行化,并且更易于解释。CAVIA 将模型参数分成两个部分:服务于模型的上下文参数在个别任务上进行调整,并且共享参数进行元培训并跨任务共享。实验证明
→
PDF
6 years ago
ECCV
用于多任务学习的调制模块及其在图像检索中的应用
本文使用调制模块来增强相关任务之间的耦合度和特征共享,同时通过引入微小的参数进行无关任务的学习分离,使得多任务联合训练更加高效。在两个检索任务上的实验结果表明,与其他多任务学习方法相比,该方法在准确性和存储效率上都具有优势。
PDF
6 years ago
Prev
Next