- NOLA:网络作为低秩随机基组合的线性组合
通过重新参数化使用线性组合随机生成的矩阵(基)的低秩矩阵,并仅优化线性混合系数,NOLA 将创新地克服了 LoRA 中的秩一下界,与等效参数计数的模型相比,NOLA 在自然语言处理和计算机视觉任务中表现得很好,并且证明能在更大的模型中减少一 - 自适应哈密顿蒙特卡洛加速采样
基于损失函数自适应地调整参数,通过梯度驱动学习计算积分步数的分布,加上随机性以实现平滑的损失函数曲面,将该方法应用于哈密顿蒙特卡罗算法,优化得到与自相关时间相对应的参数。
- 大规模生成语言模型是否需要数十亿参数?
这篇论文提出了用于开发高效大型语言模型的新系统和方法。研究探讨了模型大小、性能和计算资源之间的权衡,旨在最大限度地提高这些 AI 系统的效率。该研究发现了允许模型不同部分共享参数的新方法,从而减少所需的唯一参数总数。这种方法确保了模型在保持 - 了解后训练量化对大规模语言模型的影响
大型语言模型中的参数数量、量化、超参数和推理速度的研究分析
- 一种广泛前馈即可解决所有问题
通过删除解码器层的 FFN 并在编码器中共享单个 FFN,我们能够大幅减少参数数量,只有轻微的准确率下降,最终通过增加共享 FFN 的隐藏维度将这个架构恢复到原始尺寸,从而取得了在准确率和延迟方面的显著提升。
- 反问题函数性质的源条件双稳健推断
估计线性反问题解的线性功能参数的研究,提供首个双重健壮推理方法以确保感兴趣的参数的渐近正态性,无需了解哪个反问题更合适,这一结果是迭代 Tikhonov 正则化对抗性估计器在线性反问题上的新担保为通用假设空间的发展创造的。
- UniTune: 通过微调图像生成模型对单个图像进行文本驱动的图像编辑
UniTune 是一种简单而新颖的文本驱动图像编辑方法,它使用文本作为直观的艺术指导界面并且无需其他输入。该方法的核心在于观察到,通过选择合适的参数,我们可以在单个图像上对大型文本到图像扩散模型进行微调,从而鼓励模型保持对输入图像的忠实性, - ECCVTinyViT:小型视觉 Transformer 的快速预训练蒸馏
TinyViT 是一种新型的、基于快速蒸馏框架的小型视觉 Transformer,通过使用蒸馏预训练模型的知识迁移以及对计算和参数进行限制,能够在减少参数数量的情况下依然具有较高的准确性,并且能够在多种下游任务中得到很好的转移效果。
- 词汇排名 - 词频关系的二参数方程
使用排名 - 频率关系函数能够适应词频的排序,并且该函数中包含最大排名、期望排名以及参数等要素。
- ICMLTFPnP: 无需调参的即插即用近端算法及其在反演成像问题中的应用
该研究提出了一种无需手动参数调整的自动调参算法,该算法利用混合模型无关和模型基深度强化学习策略的方法学习参数搜索的策略网络。通过严格的数值和视觉实验,学习的策略可以根据不同场景设置自定义参数,并比现有的手工参数更加高效和有效。
- COLING探究神经机器翻译的连续训练期间的灾难性遗忘
在域自适应背景下,我们从模块和参数(神经元)的角度探究了神经机器翻译(NMT)模型的灾难性遗忘原因,发现一些模块与通用领域知识有紧密联系,而其他一些模块在域自适应中更为重要,一些参数对通用领域和领域内翻译都很重要,而在持续训练期间它们的大幅 - 拥有相同的参数时更宽的网络是否更好?
通过保持参数数量不变增加模型宽度来探究神经网络性能的影响,结论是网络宽度与模型性能作用显著,而参数数量虽不可忽视,但其次要性要保证可训练性,同时我们在高斯过程核的框架下分析这些模型并发现模型初始点有限宽度核与无限宽度核之间的距离对于模型性能 - ICLRDeLighT:深度和轻量级 Transformer
DeLighT 是一种深度和轻量级的 Transformer,其通过深度、轻量级的变换组合和块间比例缩放在每个 Transformer 块内更有效地分配参数,在不到标准 Transformer 模型深度 2.5 到 4 倍的情况下具有更少的 - ICML在固定的内存预算下进行深度集成:一种宽网络或多个较窄的网络?
该研究考虑在固定内存预算设置下,在训练单个宽网络或训练一组细网络之间,性能哪种更有效。研究发现,对于足够大的预算,采用内存分割,即训练一组较薄的网络,通常比训练单个宽网络更为有效。该发现被称为 “内存分割优势”,适用于各种数据集和模型架构。
- AIM 2019 有约束超分辨率挑战:方法与结果
本文回顾了 AIM 2019 关于基于约束的单张图像超分辨率的挑战,主要关注提出的解决方案和结果,挑战有三个轨道,每个轨道都有数十个参与者,评估了单张图像超分辨率领域的最新技术水平。
- 神经网络训练中的损失变化分配
提出一种名为 LCA 的新视窗,通过使用 Runge-Kutta 积分器沿训练轨迹分解近似路径积分的组成部分,将网络损失变化的信用保守地分配给参数,从而显示哪些参数在训练过程中负责减少或增加损失,或者哪些参数在网络学习中 “有益” 或 “有 - ACL无词孤岛 - 一种语义组合的转换加权模型
通过转换加权(TransWeight)的方式,可以从单词的表示中构建短语表示,该方法可以极大地降低所需参数数量,并在英语、德语和荷兰语中表现出色。
- 基于迭代滤波复用的极小人脸检测器
本文提出了一种新的多尺度人脸检测器 EXTD,参数数量少于 0.1 万,实现了与深度重型检测器相当的性能,采用了轻量级和浅层的骨干网络的共享,从而显著减少了参数数量,并提供了从网络层的高阶抽象图像语义到低级特征图的功能。
- BayesSim:机器人模拟器的自适应领域随机化及概率推断
BayesSim 是一个机器人模拟框架,采用贝叶斯处理参数不确定性,可以用于解决动作规划和感知问题。通过在未知参数的基础上对黑匣子模拟器进行无似然推断,可以获得后验分布,并用于模拟现实情况。实验表明,BayesSim 的效果比基于均匀先验随 - EMNLP金字塔循环单元用于语言建模
介绍了 Pyramidal Recurrent Unit (PRU) 这一新型神经网络结构,用于词语级别的语言建模,相比于传统 LSTMs 网络更具有更好的推广能力和更少的参数数量。该网络在参数相似的情况下优于之前使用不同门机制和变换的循环