几何代数变换器
基于射影几何代数的几何代数变换器 (GATr) 是一种多功能的几何深度学习架构,我们将其推广为一种蓝图,可用于根据任何几何(或 Clifford)代数构建可扩展的变压器架构。我们研究了欧几里德、射影和共形代数的不同版本的该架构,它们都适用于表示 3D 数据,并在理论和实践中对它们进行评估。最简单的欧几里德架构计算成本低廉,但对称群较小且样本效率较低,而射影模型的表达能力不足。共形代数和改进版本的射影代数都定义了强大而高效的架构。
Nov, 2023
从粒子物理实验中提取科学理解需要高精度和良好的数据效率来解决多样的学习问题。我们提出了 Lorentz Geometric Algebra Transformer(L-GATr),这是一个用于高能物理的全新多功能架构。L-GATr 将高能数据表示为四维时空的几何代数,并在 Lorentz 变换下等变,这是相对论运动学的对称群。同时,该架构是一个 Transformer,使它具有很强的灵活性和可扩展性。L-GATr 首先在粒子物理的回归和分类任务上得到验证。然后,我们构建了第一个 Lorentz 等变生成模型:基于 L-GATr 网络的连续正态流,使用 Riemannian 流匹配进行训练。在我们的实验证明中,L-GATr 与强领域特定的基线模型相媲美甚至更优秀。
May, 2024
设计现代通信系统需要模拟电磁信号传播,为了解决相反问题和自动化设计,文章提出使用基于几何代数的可微分神经替代模型进行模拟。通过引入无线几何代数变换器(Wi-GATr)作为骨干架构,在三维环境中模拟无线传播。同时研究了基于可微分预测建模和扩散模型的信号预测和反问题的两种算法方法,并在实验中验证了该方法相较于基线方法在使用更少数据的情况下能达到更高的精度。
Jun, 2024
LaB-GATr 是一个转换神经网络,具有几何记号化的功能,可以通过序列压缩和插值高效地学习大规模(生物)医学表面和体积网格,扩展了最近提出的几何代数变换器(GATr)的方法。
Mar, 2024
本文提出了基于几何(Clifford)代数的对称群转换的几何克利福德代数网络(GCAN),并采用组合叠加的方式实现对象变换。通过梯度下降,可以实现这些层作为可调整的几何模板,用于模拟三维刚体变换和大规模流体动力学模拟,相对于传统方法,实现了显著提高的性能。
Feb, 2023
通过提出一种几何感知注意机制 (Geometric Transform Attention, GTA) 来对几何结构进行编码,改进了基于 Transformer 的多视角合成模型的学习效率和性能,无需额外学习参数且计算开销较小。
Oct, 2023
介绍了几何代数的基础知识,包括平面、三维空间、时空和流行的共形模型,并对其在物理学,机器人学,信号处理,虚拟现实,计算机视觉,矢量场处理,跟踪,地理信息系统和神经计算方面的应用进行了详细的解释。它是用于表示几何转换的理想方法,具有广泛的用途。同时,几何代数的基于代数的微积分技术可以优化 Clifford 神经元的学习算法等。
Jun, 2013
通过引入新颖的几何视角,本文揭示了 Transformer 操作的内部机制,主要贡献在于说明层归一化将潜在特征限制在一个超球面上,从而使得注意力能够塑造单词在这个表面上的语义表示。通过对经过预训练的 124M 参数的 GPT-2 模型进行探究,我们的发现揭示了早期层中的清晰查询 - 键注意力模式,并在更深层次上进一步构建了关于注意力头部的特定主题性的先前观察。利用这些几何洞察,我们给出了 Transformer 的直观理解,将其描述为沿着超球面的词粒子的轨迹的建模过程。
Sep, 2023
通过例子,Transformer 可以学习执行数字计算。作者从基本矩阵操作到特征值分解和求逆,研究了线性代数的九个问题,并引入和讨论了四种编码方案以表示实数。通过使用随机矩阵训练的 Transformers 在所有问题上都能达到高的准确度,并且它们的模型对噪声具有鲁棒性,在训练分布之外也具有泛化能力。特别是,针对 Laplace 分布的特征值进行训练的模型对不同类别的矩阵具有泛化能力:Wigner 矩阵或具有正特征值的矩阵。反之则不成立。
Dec, 2021
通过 GeoMFormer 这一基于 Transformer 的分子模型,在维持和学习不变和等变表示的同时,通过精心设计的交叉注意力模块实现信息融合和增强几何建模,以提高不同类型和规模的不变和等变任务的性能。
Jun, 2024