BriefGPT.xyz
Ask
alpha
关键词
parameter training
搜索结果 - 4
线性复杂度语言模型的尺度定律
本研究通过研究线性复杂度语言模型的扩展性建立了基础,并对三种高效的线性架构进行了扩展行为的分析。结果显示,现有的线性复杂度语言模型在扩展能力、语言熟练度和知识保留方面与传统基于 transformer 的模型相似。
PDF
12 days ago
百川 2:开放的大规模语言模型
Baichuan 2 是一系列大规模多语言语言模型,包含 70 亿和 130 亿参数,从头开始训练,共有 2.6 万亿个标记。Baichuan 2 在公共基准测试中表现出与其他类似规模的开源模型相匹配或超越的性能,如 MMLU、CMMLU、
→
PDF
10 months ago
深度模型中的神经元平衡问题:更新与否?
通过利用神经元平衡的概念,从单个参数转向整个神经元的行为,实施参数训练,并测试不同的学习策略和任务,验证神经元平衡,并观察神经元平衡取决于特定的学习设置,从而达到与现有技术同等性能的研究。
PDF
2 years ago
深度 ResNet 的过度参数化:零损失和平均场分析
研究无限深度和无限宽度下 Residual 神经网络中梯度下降和凸优化的等效性,得出当神经网络足够大时,ResNet 的训练可以得到几乎没有误差的近似解决方案。
PDF
3 years ago
Prev
Next