关于基础模型的能力

Nov, 2022

On the power of foundation models

Yang Yuan

TL;DR通过分类理论，我们证明了基础模型可以通过fine tuning和足够的资源解决下游任务，但只有当这些任务是可表示的；同时，我们提供了一种基于范畴论的监督学习和自监督学习框架，该框架可能具有独立的兴趣。

Abstract

With infinitely many high-quality data points, infinite computational power, an infinitely large foundation model with a perfect training algorithm and guaranteed zero generalization error on the pretext task, can the model be used for everything? This question cannot be answered by th

发现论文，激发创造

基于梯度的学习的范畴基础

本文提出了一种基于 lens、参数化映射和反向导数类别的梯度机器学习算法的范畴语义学方法。该方法不只包含了ADAM、AdaGrad和Nesterov momentum等多种梯度下降算法，还将MSE和Softmax交叉熵等多种损失函数包含在内，从而阐明它们的相似性和差异性。同时，该方法不仅适用于连续域，还可以推广到布尔电路的离散设定。此外，文中还以Python语言实现了该方法的具体应用。

Mar, 2021

基础模型能否操纵您的数据？

本文旨在探讨基础模型（FMs）在数据清洗和集成等传统数据任务中的表现，研究发现大型FM模型可以在这些任务中取得SoTA表现，并针对这一发现提出了相关挑战和机遇。

May, 2022

基础模型简介:历史、社会和技术焦点

本文介绍了基础模型，深度学习中通过模型大小和训练数据广度和大小的扩展可以对未来的 AI 开发造成破坏。基础模型在各种任务领域（如自然语言处理和计算机视觉）中实现了最先进的性能，并且通过进一步的改进常常得到更好的表现。此外，模型的单一化可能会将众多特定任务的模型替换为由少数公司控制的更少数量的大型模型，从而导致对 AI 的权力和控制的转移，并出现新兴的行为方式：上下文学习。

Dec, 2022

预训练基础模型综述：从BERT到ChatGPT的历史

本研究综述了最近的预训练基础模型技术的研究进展，重点探讨了这些技术在文本、图像、图形以及其他数据模态中的应用前景、挑战和机遇，同时也讨论了这些技术的基本组成、现有预训练方法和未来趋势。

Feb, 2023

机器学习中的范畴计算

本文介绍了DisCoPyro作为一种结构学习框架，将范畴论结构（例如对称幺半范畴和操作符）与分摊变分推断相结合，可以应用于变分自动编码器等机器学习任务中，并提供了数学基础和具体应用，比较了与其他模型（如神经符号模型）的实验性能，预测DisCoPyro最终有助于人工通用智能的发展。

Mar, 2023

对基础模型在密集识别任务中的当前应用的批判性视角

近年来，大型模型在大量跨模态数据上的训练中取得显著成果，尤其在图像识别和生成等领域，但尚不清楚这些基础模型是否可应用于其他不同的下游任务。本文对建立在预训练基础模型之上的区分性密集识别任务的当前方法进行了简要调查，并对一种基于稳定扩散的现有开放词汇分割方法进行了初步的实验分析，结果表明当前的扩散模型在分割问题上的部署方式并非最优。旨在为未来采用基础模型进行下游任务的研究提供见解。

Jul, 2023

微调可能削弱基础模型；保留特征可能是解决方案

通过使用LDIFS方法，可以在保持下游任务性能不受明显影响的情况下，显著减少概念遗忘现象。

Aug, 2023

自学或学以致用？自编码用于广义类别发现

通过优化的方式，我们提出了一种新颖、高效且自我监督的方法，能够在测试时发现以前未知的类别。我们的方法通过将最短长度的类别编码分配给每个数据实例来捕捉现实世界数据集中普遍存在的隐含类别层次结构，从而增强了对类别细粒度的控制，使我们的模型能够熟练处理细粒度类别。实验证明了我们解决方案在管理测试时的未知类别方面的有效性，并且我们提供了一个理论基础证明其最优性。

Oct, 2023

基础模型的训练和服务系统：综合调查

本文全面探讨了基础模型的训练和服务方法，提供了详细的分类，并总结了挑战和未来发展方向。通过全面的讨论和分析，为未来的研究和应用提供了坚实的理论基础和实践指导，促进基础模型系统的持续创新和发展。

Jan, 2024

深度学习的基本组成：范畴论方法

这篇论文提出了一种基于范畴论语言的深度学习的新数学基础，通过系统化现有方法并将其概念统一到一个框架中，研究了参数化性和双向性这两个主要性质，并将其应用于 backpropagation、神经网络架构和监督学习的建模中，提供了一个统一和组合的框架。

Mar, 2024