- 关于近似 ReLU 神经网络参数的增长
对于具有最先进的逼近误差的 ReLU 结构,本研究的主要结果是其实现参数的增长至多是多项式的,与现有结果相比,在大多数情况下,特别是对于高维输入,该增长率优于现有结果。
- 通信高效的联邦知识图嵌入与实体智能 Top-K 稀疏化
FKGE 挑战主要集中在参数的规模和通信轮次的通信效率上,现有方法主要关注减少通信轮次,但忽视了每次通信中传输的参数规模,因此本文提出了一种双向通信高效的 FedS 方法,利用实体级的 Top-K 稀疏化策略来减少通信量和维护嵌入精度,通过 - 协调 Kaplan 和 Chinchilla 比例定律
该研究重点研究了 transformers 在语言预测任务中的缩放行为,探讨了参数设置和计算预算对模型性能的影响,并解释了 Kaplan 等人估计过高的原因。
- CVPR第九届 NTIRE 2024 高效超分辨率挑战报告
该论文综述了 NTIRE 2024 挑战赛,重点关注高效单图像超分辨率(ESR)解决方案及其结果,并提供了基于低分辨率和对应高分辨率图像对的放大因子为 x4 的输入图像进行超分辨率处理的任务描述。
- 引入多面体不确定图的图学习
这篇研究论文介绍了一种适用于具有多面体不确定性的基础图形的图形学习方法,将该图形在多面体集合中的假设结合到两个成熟的图形学习框架中,发现我们的方法在计算量较少的情况下能够获得更好的结果。
- ICLR用于学习神经网络等变表示的图神经网络
本文提出了一种将神经网络表示为参数计算图的方法,借助图神经网络和 transformers 来保持置换对称性,并展示了该方法在多个任务中的有效性。
- 分岔路径的花园:大型语言模型中动态参数分布的观测
这篇论文提出通过观察模型参数的统计分布随时间的演化,特别是通过观察分叉效应,可以帮助理解模型质量的原因,从而降低训练成本和评估工作,并在实践中展示了权重稀疏化的有效性。
- 动态评估的再审查:大型语言模型的在线调整
在线微调参数,动态评估,参数的临时变化状态,样本效率。
- QuaCer-C: LLM 中知识理解的定量认证
提出了一种新的 QuaCer-C 证明框架来正式认证流行的 LLMs 的知识理解能力,通过高置信度的概率上界,证明 LLMs 在任何相关知识理解提示上给出正确答案的能力与参数数量的增加而提高,Mistral 模型在这个评估中表现不佳。
- 高效扩展的 LLMs
通过比较理论和经验估计当前规模下的训练损失,我们研究了最高效的已训练 LLMs,并提出其参数数量和训练语料库规模之间的关系,结论为:(1) 要在训练语料库中表示双倍的技能,必须将语料库规模扩大大约三到五倍。(2) 对于最高效的 LLMs,参 - 基于输出评估的高效 LoRA 参数剪枝技术
通过分析 LoRA 的输出来评估参数的重要性,我们提出了 LoRA-drop 方法,对于重要层保留原有参数,而对其他层则共享同一组参数。大量的 NLU 和 NLG 任务实验证明了 LoRA-drop 的有效性。
- 分布式神经计算打破维度灾难
我们提出了一种理论方法,使用一种可以在多台机器上分布的神经计算算法来克服维度灾难。我们的模块化分布式深度学习范 paradigm 让我们能够在只加载少量参数到 GPU VRAM 的情况下实现任意的精度。我们从理论上证明,对于任意的错误水平 - 基于凸差分函数的神经网络参数优化的全局收敛算法
我们提出了一种优化单隐藏层神经网络参数的算法,其中我们导出了目标函数的分块凸差(DC)函数表示。基于后者,我们提出了一种分块坐标下降(BCD)方法,将其与定制的凸差函数算法(DCA)结合起来。我们证明了所提算法的全局收敛性。此外,我们在理论 - 探索 Transformer 的残差流
在本文中,我们通过研究 Transformer 模型的残差流来增强其可解释性。我们发现残差连接的机制是在 softmax 之前的值上进行直接相加,从而使得具有更大 softmax 之前值的标记的概率增加。此外,我们证明了使用对数概率增加作为 - 大型语言模型在代码文档生成中的比较分析
本文对大型语言模型(LLMs)进行了全面的代码文档生成比较分析,评估了 GPT-3.5、GPT-4、Bard、Llama2 和 Starchat 等模型在准确度、完整性、相关性、可理解性、可读性和代码文档不同级别生成所花费的时间等参数上的表 - 使用梯度下降解决非常数核函数的核岭回归
通过使用迭代方法并在训练过程中逐渐减小带宽,我们可以解决内核岭回归中的超参数选择问题,并取得优于使用常数带宽的结果。同时,我们证明了这种方法不仅能够实现训练误差为零且具有良好泛化性能,还能产生双下降现象,这些特征在常数带宽的内核岭回归和神经 - 评估流程中的偏见:基于优化的模型
在评估过程中,存在与个体的社会显著属性相关的偏见,我们将评估过程视为将个体对任务的真实效用分布转化为观测分布的转换,并将其建模为在信息约束下的损失最小化问题的解决方案。我们的模型有两个参数,被确定为导致偏见的因素:信息约束中的资源 - 信息 - 代谢能量模型对步态代谢成本估计的贡献
代谢成本和能量消耗模型的参数、输入变量以及神经网络等对代谢成本估计的准确性贡献最大。
- RefConv:具有强大 ConvNets 的重新参数化对焦卷积
通过在预训练模型中应用可训练的 Refocusing Transformation 以建立参数之间的联系,并且以此来增强预训练模型的表征能力,RefConv 可以在图像分类、目标检测和语义分割等任务中改进多个基于 CNN 的模型而不引入额外 - 语言模型的降低规模成本:在上下文学习之前事实记忆退化
参数扩展对大型语言模型核心能力的影响是如何的?我们研究了两种常见的扩展技术 —— 权重剪枝和直接训练更小或更大的模型,并分析了它们对语言模型的两个核心能力的影响:(a) 回忆在预训练阶段出现过的事实;(b) 处理推理过程中的上下文信息。通过