- LLM 鲁棒性能的扩展趋势探究
语言模型的规模和训练数据的增加可以预测地提高其能力,然而,对抗提示对这些模型造成了威胁,本研究旨在探讨模型规模对语言模型的健壮性是否有影响。实证研究表明,更大规模的模型在对抗训练方面表现更好,但在缺乏明确防御措施时,模型规模对健壮性几乎没有 - u-$μ$P: 单位缩放的最大更新参数化
Maximal Update Parametrization (μP) 和 Unit Scaling 的结合,提供了一种更简单的模型方案,其默认值接近最优,在低精度下能够达到较低的损失并直接投入使用。
- 模型规模对数据到文本生成中精调语言模型性能的影响:最新研究
通过对模型大小的研究,我们调查了精调 LLM 在数据到文本任务中的性能。通过广泛的比较分析,我们阐明了在五个广泛使用的 D2T 数据集和五个不同 LLM 系列的十二个大小不同的 LLMs 上扩展模型大小的优势和局限性。我们的调查发现,增加 - 迭代自我完善中的自发奖励突破
使用论文编辑任务,我们展示了迭代自我完善会导致语言模型评估器和人类判断之间的偏差,从而证明奖励欺骗可以在上下文中自发发生。此外,我们研究了奖励欺骗发生的条件,并观察到两个影响奖励欺骗严重性的因素:模型大小和生成器与评估器之间的上下文共享。
- 52B 到 1T:通过远程 FLM 系列学到的经验教训
大语言模型(LLMs)代表了人工通用智能的重大进展。本技术报告基于我们之前的 Tele-FLM(也称为 FLM-2)工作,探讨了两个主要方面:首先,我们讨论了在 Tele-FLM-52B 上的监督微调(SFT)的观察结果,支持 “少即是多” - 认知不确定性的漏洞:贝叶斯神经网络的问题
通过实验,我们观察到 “认知不确定性孔洞” 现象,即在大型模型和少量训练数据存在时,认知不确定性会明显降低,这与理论预期相反。该现象对基于认知不确定性的贝叶斯深度学习的实际应用产生问题,特别是在超出分布样本检测方面。
- ICML大规模语言模型中的自我认知:一项探索性研究
研究通过构建自我认知指令提示池,评估大型语言模型的自我认知,并提出四个原则来量化模型的自我认知水平。结果显示在 Chatbot Arena 的 48 个模型中,有 4 个模型展示出可检测到的自我认知。模型规模、训练数据质量与自我认知水平之间 - 面向多语言大语言模型的平行语料利用方法
通过对平行语料库进行优化,可以提高多语言大型语言模型的性能,研究结果表明,过滤嘈杂的翻译是有效利用平行语料库的关键。
- 模型大小对在线连续学习中灾难性遗忘的影响
研究探讨了模型大小对在线持续学习性能的影响,重点研究了灾难性遗忘。使用不同大小的 ResNet 架构,研究了网络深度和宽度对使用 SplitCIFAR-10 数据集进行逐步学习的模型性能的影响。研究结果表明,更大的模型并不能保证更好的持续学 - 解决语言模型计算最优扩展的差异
Kaplan 等人和 Hoffmann 等人为计算预算的优化模型大小开发了有影响力的扩展定律,但这些定律给出了截然不同的预测结果;通过在两个数据集上重现 Kaplan 定律,并识别出最终层计算成本、预热时间和规模相关的优化器调整等三个因素, - ICML语言模型中心理状态表征的基准测试
用各种语言模型和不同的模型大小、微调方法和提示设计进行广泛的基准测试,研究了心理状态表征的鲁棒性和记忆问题,并首次研究了提示变化对心智任务的探测性能的影响。结果表明,模型对他人信念的内部表征质量随模型大小和微调的增加而提高。此外,我们证明了 - Uni-Mol2:规模化探索分子预训练模型
通过使用两个通道的变压器模型并对模型大小、数据集大小和计算资源进行特性化研究,成功构建了迄今为止最大的 1.1 亿参数的分子预训练模型 Uni-Mol2,并在下游任务中展现了一致性的性能改进和超越现有方法。
- 大语言模型中政治劝导的对数标度定律的证据
使用多种规模的大型语言模型生成的政治信息,证明规模越大并不意味着越具有说服力,实验结果显示完成任务(连贯性,专题一致性)是较大模型说服力优势的主要原因。
- LLM 的文化价值差异:提示、语言和模型尺寸
通过研究大型语言模型(LLMs)的行为模式,我们发现查询语言和模型大小是导致文化价值差异的主要因素。
- 线性回归中的缩放定律:计算、参数和数据
大规模深度学习模型的实证研究表明,随着模型大小和数据规模的增加,训练模型的测试误差呈多项式改进;然而,神经缩放定律的一般形式预测增加模型大小会单调改善性能,这与传统的认知不同,即测试误差包含逼近、偏差和方差误差,并且方差错误随模型大小增加而 - BitsFusion:扩散模型的 1.99 位权重量化
通过开发一种新的权重量化方法,将稳定扩散 v1.5 的 UNet 模型量化为 1.99 位,实现模型尺寸减小 7.9 倍,同时展现更好的生成质量。
- 大型语言模型记忆机制的多角度分析
大语言模型(LLMs)在各个领域展示了前所未有的性能,但其特殊行为之一 —— 记忆化 —— 仍缺乏解释,本研究通过多个角度全面探讨记忆化现象及其动态,并通过实验证实了模型大小、连续大小和上下文大小之间的记忆化关系,以及不同记忆化得分下句子的 - PolygloToxicityPrompts: 大型语言模型中神经毒性退化的多语种评估
通过引入 PolygloToxicityPrompts(PTP)评测标准,我们对 17 种语言的 425K 自然出现的提示进行了首次大规模多语种毒性评估,发现了语言资源减少和模型大小增加会增加毒性的现象,并且指导性微调方法选择对毒性没有显著 - ICLR模型大小对通过 LIME 解释 LLM 的影响
通过对四个不同尺寸的 DeBERTaV3 模型在自然语言推理和零样本分类任务上的 LIME 解释进行评估,发现模型尺寸的增加并不与合理性相关,尽管模型性能有所提高,这表明随着模型尺寸的增加,LIME 解释与模型内部过程之间存在不一致。我们的 - 基于梯度的神经网络芯片上每权重混合精度量化
通过高精度量化训练方法,减少模型大小和推理速度,提高 FPGA 部署的低延迟和低功耗神经网络的资源利用率,同时保持准确性。