模块乘法的机器学习

MMFeb, 2024

Machine learning for modular multiplication

Kristin Lauter, Cathy Yuanchen Li, Krystal Maughan, Rachel Newton, Megha Srivastava

TL;DR通过密码应用为动机，我们研究了两种机器学习方法用于模块乘法：即循环回归和序列到序列变换器模型。我们结果中两种方法都取得的有限成功为基于模块乘法的密码系统中任务的困难性提供了证据。

Abstract

Motivated by cryptographic applications, we investigate two machine learning approaches to modular multiplication: namely →

cryptographic applications machine learning modular multiplication circular regression sequence-to-sequence transformer model

发现论文，激发创造

理解模块化多项式

神经网络对模块化算术任务的学习受限，无法很好地进行推广；然而，在文献中已知有一种多层感知机（MLP）网络权重的解析解适用于模块化加法任务，本文将这种解析解的类别扩展到包括模块化乘法和具有多个项的模块化加法。此外，我们展示出在这些数据集上经过训练的真实网络通过泛化（理解）学习类似的解，我们结合这些 “专家” 解来构建在任意模块化多项式上具有推广性的网络，并猜测通过神经网络训练的模块化多项式可被分类为可学习和不可学习，并提供了支持我们观点的实验证据。

Jun, 2024

深度学习在质数可除性方面的应用

本研究测试多个深度学习架构和特征工程方法，评估了使用有限整数（< 2^32）除以小质数的情况，提出一种基于傅里叶级数基向量的闭合解决方案，并且证明了自动机器学习（AutoML）流程需要适当的特征工程来处理该问题。同时，我们的结果表明，即使在 AutoML 和 LLM 时代，特征工程仍然是提高性能、增加可解释性和减少机器学习 / 深度学习模型复杂性的重要任务。

Apr, 2023

使用基于图的方法解决大型语言模型系统的乘法问题

我们提出了一种基于图形的乘法算法，通过引入一个 10k 运算符，模拟人类数学运算，有效地解决了 GPT 和其他大型语言模型在乘法方面的挑战。

Oct, 2023

神经网络中的傅里叶电路：在数学推理和模块算术中释放大型语言模型的潜力

在机器学习领域中，研究神经网络和 Transformer 所采用的内部表示是一项重要挑战。本研究通过探索网络采用特定计算策略背后的原因，深入分析了样式化的单隐藏层神经网络和单层 Transformer 在解决模块化加法任务时学到的特征，并通过与实证观察相结合，为理解神经网络的计算机制作出了贡献。

Feb, 2024

矩阵相乘的无乘法方法

介绍了一种学习算法，用于高效的近似矩阵乘法，其常用特性是需要零次乘积添加操作。实验表明，它比现有方法快 10 倍以上，而且比确切矩阵积快 100 倍。此外，核心操作 - 混合哈希，平均和字节混洗，可以是机器学习的更有前途的构建块，而不是近期研究和硬件投资重点的稀疏、因式分解和 / 或标量量化矩阵乘积。

Jun, 2021

深度强化学习中的乘法器设计优化

基于强化学习的乘法器设计优化框架 RL-MUL，通过使用矩阵和张量表示将卷积神经网络无缝地融入乘法器的压缩器树，实现了乘法器结构的优化，以适应面积和延迟之间的权衡，并扩展到优化融合乘加器设计。实验证明，RL-MUL 产生的乘法器在面积和延迟方面优于基准设计，并通过比较使用 RL-MUL 和基准方法得到的乘法器的处理单元阵列的面积和延迟进一步验证了 RL-MUL 的性能提升。

Mar, 2024

通过分段仿射运算实现硬件高效的 Transformer 训练

通过使用廉价的分段仿射逼近方法来代替浮点数乘法并将所有网络非线性替换为分段仿射函数，以实现现代神经网络完全无乘法训练的第一次成功，并展示了对于 transformer 在语言和视觉任务上的性能影响很少的结果修正矩阵乘法训练。

May, 2023

乘性 LSTM 用于序列建模

本文介绍了 mLSTM —— 基于长短时记忆 (LSTM) 和乘性循环神经网络 (RNN) 的一种用于序列建模的新型神经网络，其可以针对每个输入具有不同的循环转移函数，进而提升自回归密度估计的表达能力。我们通过实验表明，相较标准 LSTM 和其深度变体，mLSTM 在多项基于字符级语言模型的任务上均取得了更好的性能（text8 数据集的字符级熵达到了 1.27 bit/char，Hutter Prize 数据集达到了 1.24 bit/char，WikiText-2 数据集上的字节级 mLSTM 对应的字符级熵为 1.26 bit/char，相应的单词级困惑度约为 88.8，与采用类似方式正则化得到的单词级 LSTM 相当）

Sep, 2016

利用局部注意力和网格样问题表示发现基本计算系统的 Transformer 模型

本文提出一种基于通用 Transformer 的深度学习模型，通过发现高效的算数程序，利用外部的网格状记忆进行多位数的加法计算，并且发掘了人类类似的计算策略，如位值对齐。

Jul, 2022

使用 Transformer 关注数学语言

使用变压器架构生成、评估和训练数学表达式，将其作为字符级序列转换任务进行分析，建立在关注机制上的编码器和解码器上。三个模型分别被训练在数学符号变量和表达式的理解和评估上，最终达到了测试准确率高达 76.1%、78.8% 和 84.9%。

Dec, 2018