BriefGPT.xyz
大模型
Ask
alpha
关键词
probing performance
搜索结果 - 3
ACL
预训练目标如何影响大型语言模型在语言属性方面的学习?
本文探讨了语言模型的预训练目标对 BERT 学习语言属性的影响,通过使用两个语言学上有意义的目标和三个非语言学动机的目标进行预训练,并发现了这两种不同类型的目标训练出的模型在语言特征表现方面的差异非常小,这也对语言信息熵理论的主流观点提出了
→
PDF
2 years ago
ACL
探究微调模型时数据大小的重要性
研究表明优化 Fine-tuning 效果的原因是 Fine-tuning 的数据集大小,同时数据集大小会影响编码的语言知识程度,而且数据集大小主要影响神经网络的高层,且这种影响程度跟 Fine-tuning 迭代次数有关。
PDF
2 years ago
EMNLP
探究时间跨度:RoBERTa 知道什么以及何时知道?
探究语言模型中不同知识类型在 (pre) training 时学习的时间,发现语言知识快速、稳定、跨领域学习;事实和常识知识较慢、受领域限制;而推理能力一般不稳定从而建议研究人员使用更有效的方法加快必要知识的学习。
PDF
3 years ago
Prev
Next