如何在神经网络中表示部分 - 整体层次结构

Feb, 2021

如何在神经网络中表示部分 - 整体层次结构

How to represent part-whole hierarchies in a neural network

Geoffrey Hinton

TL;DR本文提出一种表示方法，使用 GLOM 虚拟系统将多个研究领域的进展结合，包括变压器、神经场、对比表示学习、蒸馏和胶囊。GLOM 的想法是使用相同向量的端点表示解析树中的节点，从而在图像中生成不同结构的 part-whole 层次结构，可显著提高变压器系统在视觉或语言处理中产生的表征的可解释性。

Abstract

This paper does not describe a working system. Instead, it presents a single idea about representation which allows advances made by several different groups to be combined into an imaginary system called glom. The advances include →

glom transformers neural fields contrastive representation learning distillation

发现论文，激发创造

神经网络中的可解释性部分 - 整体层次结构和概念 - 语义关系

本文介绍了一种名为 Agglomerator 的框架，它可以通过视觉线索提供部分 - 整体层次结构的表示，并组织与类别之间的概念语义层次结构相匹配的输入分布，从而提高神经网络的可解释性。作者在 SmallNORB、MNIST、FashionMNIST、CIFAR-10 和 CIFAR-100 等常见数据集上进行了评估，并提供了比其他最先进方法更易解释的模型。

Mar, 2022

通过投影表面统计量来学习鲁棒性表示

通过应用灰度共生矩阵来提取深度神经网络中的表面统计信息，以改善其在未知领域中的分类精度表现，并通过逆梯度方法和依靠灰度共生矩阵的正交子空间来进一步提升性能。

Mar, 2019

视觉和文本的组合混合表示

本文提出一种用于视觉与语言之间学习共同表示空间的模型，通过组合语义上的含义并不需要显式位置监督，将文本的复合性约束在视觉领域中，并通过空间变换器以及一种表示学习的方法，学习将图像分成分别编码的补丁，以可解释的方式将视觉和文本表示相结合，该模型能够执行弱监督对象检测，并展示了其对未见对象组合的外推能力。

Jun, 2022

从音素到图像：一种循环神经模型中的表征层次结构，用于视觉语言学习

基于堆叠门控循环神经网络的视觉语言学习模型，可以通过音素序列描述的图像描述，学习预测图像的视觉特征，并以层级结构表示语言信息。

Oct, 2016

图像字幕层次分析

该论文提出了一种基于分层结构的图像编码器，通过将图像分解为实例级别、区域级别和整体级别的层次结构，引入了分层解析（HIP）架构，大大提高了基于神经网络的图像描述性能，结合图卷积网络（GCN）可以进一步提高描述性能。

Sep, 2019

全球连接神经网络

深度学习架构的性能下降问题，以及 GloNet 架构作为传统架构 ResNets 的一个强有力的替代方案。

Nov, 2023

使用代码层次结构表示程序的学习

本文针对现有技术在软件工程任务中依然存在两个问题：长期依赖和不同的代码组件被平等地处理。为了解决这些问题，本文提出了一种代表代码的层次结构（“Code Hierarchy”）和一种网络架构（“ECHELON”），该架构将异构图变换网络和基于树的卷积神经网络的优点相结合用于学习富含代码依赖信息的抽象语法树。同时，本文提出了一种新的预训练目标 “Missing Subtree Prediction” 来补充 “Code Hierarchy”。评估结果表明，我们的方法在任何代码完成、代码分类和代码克隆检测方面明显优于其他基线。

May, 2022

分层 Transformer 是更高效的语言模型

通过建立分层结构的 Transformer 模型 Hourglass，让 Transformer 可以更加高效地处理长序列，在 ImageNet32 生成任务方面表现出新的最先进，同时提高了在广泛研究的 enwik8 基准上的语言建模效率。

Oct, 2021

GLiT: 全局和局部图像 Transformer 的神经网络架构搜索

通过局部模块来提高图像转换器的视觉表示能力，建立搜索空间和搜索算法体系，提出分层神经架构搜索方法并证明其在 ImageNet 数据集上对于图像分类比 ResNet 和 ViT 机型更优。

Jul, 2021

GLIMPSE: 使用 MLP 的广义本地图像

GLIMPSE 是一种针对计算机断层扫描的局部处理神经网络，通过仅将与像素周围邻域相关的测量结果提供给简单的多层感知机（MLP）以重建像素值，在分布内测试数据上达到与成功的卷积神经网络（如 U-Net）相当或更好的性能，而在分布外的样本上明显优于它们，并且几乎独立于图像分辨率的内存占用，仅需 5GB 内存即可训练 1024x1024 的图像。

Jan, 2024