范畴深度学习：架构的代数理论

MMFeb, 2024

Categorical Deep Learning: An Algebraic Theory of Architectures

Bruno Gavranović, Paul Lessard, Andrew Dudzik, Tamara von Glehn, João G. M. Araújo...

TL;DR我们提出了一个关于通用框架，用于指定和研究深度学习架构的难题的见解。我们认为目前为止的关键尝试缺乏一个能够将模型必须满足的约束与其实现进行协调的桥梁。我们的提议是应用范畴论 —— 更具体地说，是参数化映射的范畴论，作为一个单一的理论，优雅地包含了这两种类型的神经网络设计。为了支持我们的观点，我们展示了这个理论如何恢复由几何深度学习引起的约束，并介绍了从神经网络的多样化领域中提取的许多架构的实现，如递归神经网络。我们还说明了这个理论如何自然地编码计算机科学和自动机理论中的许多标准结构。

Abstract

We present our position on the elusive quest for a general-purpose framework for specifying and studying deep learning architectures. Our opinion is that the key attempts made so far lack a coherent bridge betwee

general-purpose framework deep learning architectures category theory geometric deep learning neural networks

发现论文，激发创造

深度学习的基本组成：范畴论方法

这篇论文提出了一种基于范畴论语言的深度学习的新数学基础，通过系统化现有方法并将其概念统一到一个框架中，研究了参数化性和双向性这两个主要性质，并将其应用于 backpropagation、神经网络架构和监督学习的建模中，提供了一个统一和组合的框架。

Mar, 2024

范畴符号学：知识整合基础

我们扩展了代数规范方法以解决从不同模型中提取的知识的集成问题，并且通过将图形结构与 Ehresmann 的素描结构相结合，提出了一个统一的理论，它能够优雅地包含确定性和非确定性神经网络设计的基本概念。这个拓展的代数规范框架为跨不同模型和领域的知识集成提供了一个有希望的解决方案。

Apr, 2024

参数化透镜的深度学习

我们提出了一种基于镜头、参数化映射和反向导数范畴的机器学习算法的分类语义学。这一基础提供了一个强大的解释性和统一性框架：它包括了各种梯度下降算法，如 ADAM、AdaGrad 和 Nesterov 动量，以及各种损失函数，如 MSE 和 Softmax 交叉熵，以及不同的架构，揭示了它们的相似性和差异。此外，我们的学习方法超越了熟悉的连续领域的示例（在光滑映射范畴中建模），并且可以应用于布尔电路和多项式电路的离散环境。我们通过 Python 实现展示了我们框架的实际意义。

Mar, 2024

基于梯度的学习的范畴基础

本文提出了一种基于 lens、参数化映射和反向导数类别的梯度机器学习算法的范畴语义学方法。该方法不只包含了 ADAM、AdaGrad 和 Nesterov momentum 等多种梯度下降算法，还将 MSE 和 Softmax 交叉熵等多种损失函数包含在内，从而阐明它们的相似性和差异性。同时，该方法不仅适用于连续域，还可以推广到布尔电路的离散设定。此外，文中还以 Python 语言实现了该方法的具体应用。

Mar, 2021

群同变神经网络的范畴化

该论文提出了一种基于范畴论的新型深度学习应用，通过范畴论构建了一种比原始构建方式更为丰富的结构，能够更好地理解和处理群等变神经网络的线性层函数，特别地，提出了一种快速计算通过群等变线性层的传入向量结果的算法，证明了范畴论能够对深度学习的其他领域产生积极的影响。

Apr, 2023

机器学习中的代数动力系统

引入了一种基于术语重写的动力系统的代数模拟，证明了递归函数应用于迭代重写系统的输出定义了一类模型，其中包括循环神经网络、图神经网络和扩散模型等所有主要的动态机器学习模型架构。从范畴论的角度来看，这些代数模型也是描述动态模型组成性的一种自然语言。此外，我们提出这些模型为将上述动态模型推广到结构化或非数值数据（包括 “混合符号 - 数值” 模型）的学习问题提供了一个模板。

Nov, 2023

贝叶斯大脑组合理论的数学基础

本篇论文应用类别论工具给出了一种关于主动推理和 Bayesian 大脑的构成性解释，定义了 Bayesian 镜头并且使用它们解释了 Bayesian 升级，在此基础上我们定义了统计游戏的类别，并使用它们对各种统计推理问题进行了分类。同时对开放动态系统进行了一种新的形式化定义，并将它们作为镜头控制的动态系统来解释双向的预测编码神经电路构造。

Dec, 2022

机器学习中的范畴计算

本文介绍了 DisCoPyro 作为一种结构学习框架，将范畴论结构（例如对称幺半范畴和操作符）与分摊变分推断相结合，可以应用于变分自动编码器等机器学习任务中，并提供了数学基础和具体应用，比较了与其他模型（如神经符号模型）的实验性能，预测 DisCoPyro 最终有助于人工通用智能的发展。

Mar, 2023

深度学习的现代数学

我们描述了深度学习数学分析的新领域，涉及到超参数神经网络的普适性，深度对于网络的作用，感知问题的缺失，问题优化性能的成功和架构的各个方面对学习任务的影响，并提供了现代方法的概述和详细的主要思想。

May, 2021

自然语言处理的分类工具

该论文提出了范畴论和计算语言学之间的翻译作为自然语言处理的基础，结合语法、语义和语用三个方面，以字符串图表达统一的句法结构，利用函子将图表达式计算为逻辑、张量、神经或量子计算的语义，通过组成游戏将生成的函子模型进行组合，从而解决语言处理任务。DisCoPy 是用于计算字符串图的 Python 库的一部分，将得到的范畴、语言和计算结构之间的对应关系描述，并通过组合的自然语言处理应用进行演示。

Dec, 2022