- 深度神经网络的元学习损失函数
探索利用元学习概念来改善性能,尤其是通过损失函数这个常常被忽视的组成部分。损失函数是学习系统的重要组成部分,它代表了主要的学习目标,在系统成功优化该目标的能力上进行了量化。
- 元学习的神经程序偏差
通过神经程序化偏差元学习(NPBML)的提出,我们可以通过元学习的过程来赋予神经网络特定的程序化偏差,以实现对分布式学习任务的高性能表现。
- 潜在表示的重要性:一次性绘画任务中的人类般素描
通过研究不同归纳偏差对潜在扩散模型 (Latent Diffusion Models, LDMs) 的潜在空间的影响,我们发现具有减少冗余和基于原型的正则化的 LDM 几乎能够产生接近于人类的图画,使其在样本的可识别性和原创性方面更好地模拟 - ICML特征污染:神经网络学习不相关特征且泛化能力不佳
深度神经网络在分布变化下的泛化能力与特征污染、归纳偏差等因素相关,并非仅仅是偶然性相关。
- MCDS-VSS:基于自监督几何和运动滤波的移动相机动态场景视频语义分割
我们提出了 MCDS-VSS,这是一种结构化滤波模型,通过自监督学习来估计场景几何和相机自运动,并估计外部物体的运动,从而提高语义分割的时间一致性。我们的模型将汽车场景解析为多个解耦的可解释表示,例如场景几何、自运动和物体运动,并在保持竞争 - 利用对比学习与生成相似性来学习能捕捉人类归纳偏好的空间
我们引入了一种贝叶斯的生成相似性概念,通过该概念我们可以定义一个对比学习目标,即使其精确形式难以计算,从而使得能够学习到表达特定归纳偏差的空间嵌入。我们通过展示如何捕捉几何形状的人类归纳偏差以及更好地区分由概率程序参数化的不同抽象绘画风格, - 基于热力学局部启发的图神经网络
这项研究通过引入感知力偏差,同时套用热力学第一和第二原理,提高神经网络的准确性,尤其是在涉及到图网络时,通过开发一种本地化版本的感知力偏差,避免了全局 Poisson 和耗散矩阵的拼装,从而保存了图网络的节点结构,并在固体力学和流体力学领域 - ICML理解 LLMs 需要超越统计概括
对深度学习的广义化现象、超参数化模型、非可识别性以及归纳偏见进行研究,并针对语言模型相关的广义化度量、可迁移性和归纳偏见提出了有前景的研究方向。
- IJCAIGradformer:具有指数衰减的图变换器
本文提出了 Gradformer,一种创新地将 GT 与内在归纳偏差集成的方法,通过将指数衰减掩码应用于注意力矩阵来实现。通过这种设计,Gradformer 保留了从远程节点捕获信息的能力,同时专注于图的局部细节。广泛的实验表明,Gradf - 三脚架:用于解缠合表示学习的三个互补归纳偏差
在这项研究中,我们通过将神经网络自编码器与三种从文献中选取的归纳偏差相结合,即通过量化将数据压缩成网格状潜在空间、潜在变量之间的集体独立性和最小功能对其他潜在变量数据生成的功能影响减至最小,提出了一种新的模型 Tripod,该模型在四个图像 - 热力学信息神经网络的单发生器和双发生器形式体系的比较
使用归纳偏差可以提高神经网络在预测物理现象方面的准确性和鲁棒性,而在没有了解物理原理的情况下,将热力学原理引入网络架构是一种非常有潜力的方法,本文研究了热力学原理在物理现象研究中的优缺点。
- 语言模型中的概念和公正推理
我们提出了一个新的概念化框架,迫使模型在抽象问题上进行概念推理并在可验证的符号空间中生成解决方案,使用这个框架作为分析工具,我们发现现有的大型语言模型在概念推理方面存在不足,并通过引入可信的归纳信号来改善模型的概念推理性能,实验证明我们提出 - Transformer 模型对学习低敏感性函数的简洁倾向
通过对变压器在随机输入变化的敏感性进行研究,揭示了其简约偏差以及频谱偏差,并发现低敏感性偏差与提高鲁棒性相关,并可作为进一步提高变压器鲁棒性的有效干预手段。
- 神经红移:随机网络不是随机函数
神经网络的归纳偏见和简单性偏见对于深度学习的成功是重要的,可以通过不同的架构进行控制。
- CVPR重新思考表面法线估计的归纳偏差
利用感知偏置进行表面法线估计,采用像素级射线方向并学习邻近表面法线之间的相对旋转关系,可以在任意分辨率和长宽比的复杂野外图像中生成鲜明但分段平滑的预测,且该方法具有较强的泛化能力,即使训练数据集规模比最先进的 ViT 模型小几个数量级。
- 基于人口平衡的公平学习算法的归纳偏差
研究通过敏感属性的少量依赖分配标签的公平监督学习算法在机器学习界引起了极大关注。本文分析了标准的基于 DP 的正则化方法对给定敏感属性的预测标签的条件分布的影响,并提出了一种基于敏感属性的分布鲁棒优化方法以改善对敏感属性边际分布的鲁棒性,数 - ICLR当扩展与 LLM 微调相遇:数据、模型和微调方法的影响
大语言模型的微调方法的缩放因子对模型性能的影响的系统实验结果表明,LLM finetuning 遵循微调数据量与其他缩放因子之间的幂函数乘法联合缩放规律,LLM 模型尺寸的扩大比预训练数据尺寸的扩大对 finetuning 更有益处,而仅考 - 关于 RNN 语言模型归纳偏差的理论结果
循环神经网络(RNNs)作为语言模型(LMs)的经验成功可能与其能够有效地表示人类语言中的有界分层结构有关,并且可以推广其构造以表示更大类别的 LMs,即可以用带有边界堆栈和广义堆栈更新函数的推挤自动机来表示。然而,RNNs 在表示多样化的 - 偏见与反复无常:度量大型语言模型中的社会歧视的统计框架
通过考虑大型语言模型的持久偏见和生成不一致性,我们在本文中提出了偏见 - 反复性框架(PCF),从而全面测量 LLMs 中的歧视行为。我们对 12 个常见 LLMs 应用我们的歧视测量框架,发现现代 LLMs 存在显著的男性偏见,并且 LL - 大多数自监督学习方法背后的共同稳定性机制
通过解释对比技术如 SimCLR 和非对比技术如 BYOL、SWAV、SimSiam、Barlow Twins 和 DINO 的工作机制,提供了稳定机制的框架,论证了这些不同的自监督学习技术在隐式上优化类似的目标函数,同时提供数学和经验数据