通过隐含组合进行算法归纳的任务无关架构

ICLRApr, 2024

通过隐含组合进行算法归纳的任务无关架构

Task Agnostic Architecture for Algorithm Induction via Implicit Composition

Sahil J. Sindhi, Ignas Budvytis

TL;DR提出一种理论框架构建统一的深度网络架构，基于 Transformer 模型以及离散学习框架，以解决当前构建通用网络的挑战。

Abstract

Different fields in applied machine learning such as computer vision, speech or natural language processing have been building domain-specialised solutions. Currently, we are witnessing an opposing trend towards developing more generalist architectures, driven by →

generalist architectures large language models multi-modal foundational models unified architecture transformer-based models

发现论文，激发创造

自动组合表示变换以促进泛化

介绍了一种广泛适用的形式主义，即组合问题图，以解决机器学习中不利于推广的问题，提出了组合泛化问题并引入组合递归学习器，该框架适用于学习算法过程以组合表示转换，从而产生能够进行推理的学习器。

Jul, 2018

语法指导的 Transformer: 在多模态环境中提升组合泛化能力和基于语境的理解

利用句法结构的注意力屏蔽技术从根本上提高了组合概括的重要性，特别是在多模式环境中的语义根基问题。通过在 Transformer 编码器中的权重共享，依赖解析在不同任务中推动了基于语法的组合概括的最新研究。这些结果提高了多模式语义根基和参数高效建模的技术水平，并为未来的研究提供了深入洞察。

Nov, 2023

变压器语言模型在算法学习上的限制

我们分析了 Transformer 语言模型在学习离散算法方面的能力，通过引入两个需要组合多个离散子任务的新任务，我们在从头开始训练 LLaMA 模型以及 GPT-4 和 Gemini 上引导训练时，度量了学习的基本组合。我们观察到，最先进的 Transformer 语言模型的组合能力非常有限，而且在样本上的规模效果比为新的算法组合重新学习所有子任务要差。我们还提出了一个复杂性理论的定理，证明了在记忆前馈模型上的梯度下降可能在数据效率上指数级低效。

Feb, 2024

基于结构化任务训练的 Transformer 模型的系统泛化和涌现结构

该文探讨了怎样使用 Transformer 网络在算法任务中表现良好，展示了多层 transformer 网络在任务分解中的可靠性解决方案，以及所有相关任务中的共享计算的利用。

Oct, 2022

面向任务的模块化网络用于零样本组合学习

提出一种基于模块化体系结构和任务驱动的深度神经网络，能够在零样本情况下进行组合推理和分类，并在广义零样本分类问题上使用小模块优于现有方法。

May, 2019

现代人工神经网络中的语言泛化和组合性

该研究回顾了当前深度学习语言处理网络的主要创新，讨论了一系列研究表明深度网络能够进行微妙的语法依赖性泛化，但也不依赖于系统化的组合规则，这一现象应该引起语言学家和认知科学家的兴趣。

Mar, 2019

一个神经重写系统用于解决算法问题

我们提出了一种用于学习算法任务的原创方法，该方法受符号人工智能中的重写系统的启发，该系统由专门的模块组成的神经结构实现，通过系统地应用组合规则来解决超出分布的问题实例。

Feb, 2024

通用多模态人工智能：架构、挑战与机遇综述

多模态模型在人工智能的未来进展中被认为是一个关键组成部分，本文通过一种新的架构和训练配置特定的分类方法，从多个角度对通用多模态模型进行了综述，并提出了关键挑战和前景。

Jun, 2024

构建人工神经电路实现领域通用认知：关于脑启发系统级架构的入门指南

本论文概述了生物神经网络为灵活认知所需的特征，讨论了神经网络体系结构的系统级通信和重复性以及短期拓扑变化对于机器学习模型的贡献，并说明人工系统中测试这些归纳偏见有助于理解领域通用认知的生物学原则。

Mar, 2023

当可以进行语境内的 Transformer 组合泛化？

在这篇文章中，我们研究了一个模块化多任务设置，以精确控制数据生成过程中的组合结构，通过提供实验证据，发现转换器在上下文学习中在组合泛化方面存在困难，只有当引入瓶颈强制将任务推理与任务执行明确分开时，组合泛化才变得可能。

Jul, 2024