- 将统计学习理论应用于深度学习
从学习理论的角度来理解深度学习时,我们讨论了一些主要问题,包括统计学习理论、随机优化、梯度下降对线性对角网络的隐式偏差。
- 高效稳健的粒子射流标记:知识蒸馏在 LHC 中的应用
利用知识蒸馏提高学生模型对大型强子对撞机上轰击粒子分类任务的性能,并通过使用具有洛伦兹对称的强归纳偏差的教师模型,引入相同的归纳偏差以提高模型的鲁棒性
- 生物启发学习中分解编码器设计中的表征学习
本文研究了在代表性学习中利用具有局部可塑性规则的归纳偏见,探索了在编码器的早期层中通过使用人为指定的准不变滤波器的归纳偏见来提高学习分类器的鲁棒性和透明性。研究结果表明,这种形式的归纳偏见在局部可塑性规则模型和反向传播模型之间缩小差距,以及 - 形式随功能:基于功能要求的文本到文本条件图生成
本研究基于图的功能要求生成的问题设置进行了研究,并提出了一种在预训练语言模型的基础上微调以生成图的方法,该方法引入了关于图结构的归纳偏置,通过将消息传递层整合到语言模型的架构中。通过在公开可用和广泛研究的分子和知识图数据集上进行实验,结果表 - TransXNet: 通过双动态令牌混合器学习全局和局部动态以进行视觉识别
提出了一种轻量级的 Dual Dynamic Token Mixer (D-Mixer) 来聚合全局信息和局部细节,通过在特征分段上分别应用高效的全局注意力模块和输入相关的深度可分离卷积,为网络赋予了强大的归纳偏差和扩大的有效感受野。使用 - C - 解缠:在混淆因素的归纳偏差下发现因果独立的生成因素
这篇论文通过引入共变量先验偏好,提出了一种名为 C-Disentanglement 的框架,用于识别因果生成因子,并在领域变化下取得了与各种 SOTA 基准方法相比具有竞争力的结果。
- 联想变压器是一种稀疏表示学习器
建立在生物学原理的基础上,我们提出了关联变压器(AiT),它通过引入显式记忆形成注意力瓶颈,并在共享工作空间和关联记忆中形成吸引子,从而在不同视觉任务中展示出了比 Set Transformer、Vision Transformer 和 C - 关系瓶颈作为高效抽象的归纳偏好
认知科学的一个关键挑战是解释如何从有限经验中获得抽象概念,本文讨论了一种最近出现的观点,该观点提出了一个称为关系瓶颈的归纳偏置,通过利用这种方法在数据高效的方式下诱导抽象,强调其作为人类思维和大脑中抽象概念获取的候选模型的潜力。
- 异戊烷排斥力强化学习
在环境奖励稀疏的情况下,发现探索的良好归纳偏差对于智能体的成功至关重要。本文提出了一种新的内在奖励,即抗周期奖励,通过避免循环惩罚冗余,而不是奖励新颖性,结合智能体的截断观察基于层次化表示的序列,我们能够在 MiniGrid 和 MiniH - 通过学习系数量化奇异模型的退化
深度神经网络中的退化度由称为学习系数的数量精确量化,本文通过使用随机梯度 Langevin 动力学近似计算具有局部化版本的学习系数,验证了该方法的准确性,并展示了学习系数能够揭示随机优化器对于更或更少退化临界点的引导偏差。
- ${m E}(3)$-Equivariant Actor-Critic 合作多智能体强化学习方法
本文重点研究了自然界中对称模式的识别和分析,在物理学中导致了引力定律的制定和化学结构研究的进展。我们着眼于利用某些协同多智能体强化学习问题中固有的欧几里得对称性,该问题在许多应用中普遍存在。我们首先形式化地表征了一类具有对称最优值和策略存在 - 基于视网膜地形学的大脑编码模型及全能训练法
使用多个小型模型聚合知识并保留不同功能区域之间的差异,利用大量公开数据和生物知识构建了最全面的脑部编码模型,该模型可用于替代常用的视觉模型,并应用于脑解码。
- 门控神经 ODE 中的可训练性、表达能力和可解释性
本研究介绍了一种使用门控相互作用赋予自适应时间尺度的神经普通微分方程(gnODEs),并以需要记忆连续量的任务为例,证明了 gnODEs 学习(近似)连续吸引子方面的归纳偏差。此外,作者还引入了一种新的表现力量度,探究了 nODEs 的相空 - PUFFIN: 一种用于蒸汽压预测的路径统一的前馈接口网络
精确预测蒸气压是各种工业和环境应用中至关重要的。然而,由于实验的资源和劳动强度,不可能获得所有感兴趣化合物的准确测量结果。当希望预测蒸气压的温度相关关系时,资源和劳动需求进一步增加。在本文中,我们提出了 PUFFIN(Path-Unifyi - 使用补丁混合将 ViT 补丁选择性硬连到 CNN 中
本研究使用 Patch Mixing 数据增强方法,旨在探讨是否可以通过有效地硬连中的归纳偏差,使 CNNs 模拟出 ViTs 的图像选片能力,结果显示 ViTs 不会因 Patch Mixing 而改善或恶化,但 CNN 将获得忽略非上下 - 算法信息论的电路复杂度表述
研究基于电路复杂度的先验模型,并使用它们来学习部分信息中的布尔函数。该模型假设,布尔函数或布尔字符串由一些电路的贝叶斯混合生成。在电路复杂度方面表现良好。
- 扩展 MLPs: 归纳偏差的故事
本研究重新探讨了深度学习最基本的构架之一 —— 多层感知机(MLP)在视觉任务中的性能极限,重点研究了不同规模下的预训练对于 MLP 性能的影响,揭示了缺乏归纳偏差时尺度扩展对于性能表现的提升。
- ProtoGate: 基于样本原型和局部特征选择的表格生物医学数据神经网络
本研究提出了 ProtoGate,一种基于原型的神经网络模型,通过全局到局部选择特征并利用这些特征生成可解释的预测,识别数据中的同质性和异质性模式来改善预测精度。对合成和真实世界数据集进行了综合实验,结果表明,利用数据中的同质性和异质性模式 - 端到端驾驶模型的隐性偏见
通过剔除近乎所有最新方法中的两个偏见,即通过对目标点的强归纳偏见实现侧向恢复和通过多模式路点预测的纵向平均实现减速,在建立一个新的基于结构化深度学习和容易实现的系统中,TF++ 在 Longest6 和 LAV 的基准测试上达到了最好的表现 - 通过贝叶斯透镜进行上下文学习
本文通过多种线性和非线性函数类的实证观察,延伸了之前的研究,表明了 transformers 的理想学习者表现,并探究了其在 Bayesian 模型和多任务环境下的应用,还以傅里叶级数为例研究了其归纳偏差。