BriefGPT.xyz
Ask
alpha
关键词
guided dropout
搜索结果 - 2
信息引导的正则化用于微调语言模型
传统的预训练 - 微调策略已被视为现代语言建模中的转移学习策略,但需要更具目标敏感性的参数正则化方法以实现更平滑的转移学习。本文通过信息论的角度研究了预训练损失函数在任务敏感参数上的影响,并利用研究结果提出了一种新颖的用于改善模型正则化和下
→
PDF
21 days ago
AAAI
适用于循环神经网络的对抗性 dropout
通过采用敌对概念生成的 dropout mask 来改进循环神经网络的性能,实现了对于时序 MNIST 任务、半监督文本分类任务和语言建模任务中 RNNs 的 dropout 技术的有效性提高。
PDF
5 years ago
Prev
Next