单子化深度学习
通过使用不同的可微编程语言和神经网络的框架,我们创建了端到端可训练系统,可以学习编写带感知元素的可解释算法。通过模块化结构和归纳偏差,我们证明了可以学习一组不断增长和改进的 (神经) 函数库,这可以带来比基线更高效的新任务知识传递。
Nov, 2016
我们提出了一个关于通用框架,用于指定和研究深度学习架构的难题的见解。我们认为目前为止的关键尝试缺乏一个能够将模型必须满足的约束与其实现进行协调的桥梁。我们的提议是应用范畴论 —— 更具体地说,是参数化映射的范畴论,作为一个单一的理论,优雅地包含了这两种类型的神经网络设计。为了支持我们的观点,我们展示了这个理论如何恢复由几何深度学习引起的约束,并介绍了从神经网络的多样化领域中提取的许多架构的实现,如递归神经网络。我们还说明了这个理论如何自然地编码计算机科学和自动机理论中的许多标准结构。
Feb, 2024
本文探讨了使用 transformer 模型对 typed lambda 演算进行类型推导的问题,并对优化器的选择以及 warm-up 的影响进行了实验,发现 Adafactor 比 Adam 和 RAdam 更有效。
Mar, 2023
本研究探索了一类新的端到端可学习模型,其中数据处理节点是根据预期行为而不是显式的前向函数定义的,并且演示了这些模型如何超越当前的深度学习模型,如何通过隐式函数定理进行反向传播导致端到端学习,以及如何在常见的 PyTorch 深度学习软件库中实现这些声明性处理节点。
Sep, 2019
本文从物理学和函数式编程中导入思想探讨了基于强类型的循环神经网络(RNN)模型设计问题,提出动态平均池化和一维卷积的简化语义解释。实验证明,虽然更加受限制,但基于强类型的 RNN 模型在训练时可以达到比传统模型更低的误差率和相当的泛化能力。
Feb, 2016
CodeTIDAL5 是一种基于 Transformer 的模型,用于可靠地预测类型注释,并从程序的代码属性图中提取使用片段,其在 ManyTypes4TypeScript 基准测试上优于当前最先进的神经类型推理系统 7.85%,总体准确率达到 71.27%。
Oct, 2023
引入了一种基于术语重写的动力系统的代数模拟,证明了递归函数应用于迭代重写系统的输出定义了一类模型,其中包括循环神经网络、图神经网络和扩散模型等所有主要的动态机器学习模型架构。从范畴论的角度来看,这些代数模型也是描述动态模型组成性的一种自然语言。此外,我们提出这些模型为将上述动态模型推广到结构化或非数值数据(包括 “混合符号 - 数值” 模型)的学习问题提供了一个模板。
Nov, 2023
SparkNet 是一个在 Spark 上训练深度网络的框架,采用简单的并行随机梯度下降方法,具有良好的可扩展性和高延迟通信容忍度,易于部署和使用,可与现有 Caffe 模型兼容,并针对 ImageNet 数据集进行了性能基准测试。
Nov, 2015
本研究提出了一种新颖的神经程序模型(Neural Programmer),该模型扩展了具有少量基本算术和逻辑运算的不可区分神经网络,此模型可以在多个步骤中调用这些扩展操作,因此产生的组成程序比内置操作更复杂。该模型采用相对较弱的监督信号进行训练,不需要昂贵的编写正确程序的注释,经过训练在很复杂的综合表理解数据集中取得了几乎完美的准确度。
Nov, 2015