Learning transformation invariant representations of visual data is an
important problem in computer vision. deep convolutional networks have
demonstrated remarkable results for image and video classification tas
Topology-Informed Graph Transformer (TIGT) enhances discriminative power in detecting graph isomorphisms and overall performance of Graph Transformers, outperforming previous models in classifying isomorphism classes of graphs and across various benchmark datasets.
实际几何和 3D 视觉任务充满了令人困惑的对称性,该论文介绍了一种名为神经等距映射的自动编码器框架,它学习将观察空间映射到通用的潜在空间,在这个空间中,当相应的观察在世界空间中有几何关系时,编码是由等距映射相关的。这种方法形成了一个有效的自监督表示学习的基础,并且我们证明了一个在预训练的潜在空间中操作的简单暗箱神经网络能够达到与精心设计的手工网络相媲美的结果,以处理复杂的非线性对称性。此外,等距映射捕捉了世界空间中相应变换的信息,我们展示了这使我们能够直接从相邻视图的编码之间的映射的系数为相机姿态回归。