机械论解释中的两个故事：时钟和匹萨（The Clock and the Pizza: Two Stories in Mechanistic Explanation of Neural Networks）

Jun, 2023

机械论解释中的两个故事：时钟和匹萨（The Clock and the Pizza: Two Stories in Mechanistic Explanation of Neural Networks）

The Clock and the Pizza: Two Stories in Mechanistic Explanation of Neural Networks

Ziqian Zhong, Ziming Liu, Max Tegmark, Jacob Andreas

TL;DR该研究研究发现，神经网络在一些算法任务上重新发现已知的算法是可靠的，但在模块加法等问题上，模型的超参数和初始化的微小变化可能会导致从固定数据集中发现不同的算法，有些神经网络实现的是熟悉的 Clock 算法，而另一些实现的是先前未描述的，不太直观但可以理解的 Pizza 算法，甚至包括更复杂的过程。

Abstract

Do neural networks, trained on well-understood algorithmic tasks, reliably rediscover known algorithms for solving those tasks? Several recent studies, on tasks ranging from group arithmetic to in-context linear regression, have suggested that the answer is yes. Using →

neural networks algorithm discovery modular addition clock algorithm pizza algorithm

发现论文，激发创造

能否学习算法？使用循环网络从易到难问题进行泛化

本文讨论了深度神经网络在视觉模式识别方面的强大能力，但在推理任务中仍然表现不足，引入了使用循环神经网络解决问题的算法，并通过前缀和计算，迷宫和棋类游戏等问题进行了实验研究。

Jun, 2021

通过边缘最大化实现特征的出现：代数任务中的案例研究

理解神经网络学习到的内部表示是机器学习科学中的一个基石挑战。本文探讨了一个互补问题，即为什么网络会采用特定的计算策略，通过代数学习任务对用于这些任务的网络学到的特征进行了理论分析，证明了训练网络利用傅立叶特征进行模块化加法，以及使用与不可约群表示对应的特征来执行一般群的组合，与 Nanda 等人和 Chughtai 等人的实证观察密切一致。

Nov, 2023

理解模块化多项式

神经网络对模块化算术任务的学习受限，无法很好地进行推广；然而，在文献中已知有一种多层感知机（MLP）网络权重的解析解适用于模块化加法任务，本文将这种解析解的类别扩展到包括模块化乘法和具有多个项的模块化加法。此外，我们展示出在这些数据集上经过训练的真实网络通过泛化（理解）学习类似的解，我们结合这些 “专家” 解来构建在任意模块化多项式上具有推广性的网络，并猜测通过神经网络训练的模块化多项式可被分类为可学习和不可学习，并提供了支持我们观点的实验证据。

Jun, 2024

神经网络中的傅里叶电路：在数学推理和模块算术中释放大型语言模型的潜力

在机器学习领域中，研究神经网络和 Transformer 所采用的内部表示是一项重要挑战。本研究通过探索网络采用特定计算策略背后的原因，深入分析了样式化的单隐藏层神经网络和单层 Transformer 在解决模块化加法任务时学到的特征，并通过与实证观察相结合，为理解神经网络的计算机制作出了贡献。

Feb, 2024

使用堆栈增强循环网络推断算法模式

本文讨论了标准深度学习方法的局限性，并展示了如何通过以结构化方式增加模型的复杂性来克服这些限制，具体地，研究了仅适用于具有计数和记忆序列能力模型的算法生成序列的最简单序列预测问题，证明了可以使用与可训练内存相关的循环网络从序列数据中学习一些基本算法。

Mar, 2015

神经网络早期学习动力学的出乎意料的简单性

本文证明，对于一类良好行为的输入分布，一个双层全连接神经网络的早期学习动态可以通过在输入上训练简单的线性模型来模仿。关键在于通过约束初始时的神经切向核（NTK）和数据核的仿射变换之间的谱范数差异来赋值。我们还表明，这种令人惊讶的简单性可以在更多层和具有卷积结构的网络中持续存在，验证了这一点。

Jun, 2020

机械式 RNN

本文介绍了简单而强大的时钟 RNN 的修改方法，该方法将隐藏层分成单独的模块，在其自己的时间粒度上处理输入，并且在测试的任务中改善了性能，速度快于标准的 RNN 模型，优于 RNN 和 LSTM 网络，出色地完成了声音信号生成和 TIMIT 口语识别任务。

Feb, 2014

神经网络中结构组合性的证据

利用模型修剪技术，在视觉和语言领域的各种架构、任务和预训练方案中，研究神经网络是否通过模块化子网络实现子程序的解决方案，结果表明神经网络通常可以展示组合性，避免了专门的符号机制。

Jan, 2023

用神经网络发现物理概念

本研究以人类物理推理过程为模板，建立了一种神经网络架构，旨在通过表示学习的方式，使神经网络在实验数据的基础上为科学发现提供更具一般性的工具，并在玩具实例中应用该方法，得出相应结论。

Jul, 2018

模块化元学习

本文提出了一种学习一组神经网络模块并以不同方式组合的策略，并通过重复使用模块来实现组合概括，提高机器人相关问题的性能。

Jun, 2018