基础模型将聚类作为主动学习的更好初始化

Feb, 2024

基础模型将聚类作为主动学习的更好初始化

Foundation Model Makes Clustering a Better Initialization for Active Learning

Han Yuan, Chuan Hong

TL;DR本研究提出了将基础模型与聚类方法相结合，用于选择主动学习初始化样本，实验证明这种方法可以有效地定位信息丰富的初始样本，从而提高模型性能。

Abstract

active learning selects the most informative samples from the unlabeled dataset to annotate in the context of a limited annotation budget. While numerous methods have been proposed for subsequent sample selection

active learning sample selection model initialization foundation models clustering

发现论文，激发创造

重访视觉基础模型时代的主动学习

基于基础模型的主动学习策略通过利用稳定的表示形式，平衡不确定性估计和样本多样性，在标签效率方面取得了令人印象深刻的成果。

Jan, 2024

低预算主动学习的简单基线

本篇研究利用自我监督学习方法提取丰富特征，并研究了针对低标记预算下不同采样策略的有效性，表明虽然主流主动学习方法在高标记预算下表现出色，但简单的 K 均值聚类方法在低预算下可以胜任，并可作为图像分类低预算主动学习的基线方法。

Oct, 2021

从随机到基础模型的指导初始化在医学图像分割中的联邦学习中的起始点在哪里？

通过使用基础模型的巨大预训练知识作为以医学图像分割任务为例的 FL 模型初始化的指导教师，本研究首次尝试将基础模型作为 FL 初始化的教师，评估其对 FL 模型性能的影响，尤其是在非独立同分布数据场景中。经验评估结果表明，在胸部 X 光肺分割任务中，FL 模型初始化指导下的 FL 不仅能实现更快的收敛，而且在复杂数据情境中也能提高性能，为 FL 中的模型初始化提供了新的视角。

Nov, 2023

基础模型的参数高效主动学习

通过在活动学习（AL）框架内应用参数高效微调方法对极限预算限制的分类任务中的采样选择过程进行研究，本研究展示了基础视觉转换模型在图像数据集上表现出色的少样本性能，并突出显示了将参数高效微调方法与基础模型相结合的战略优势，从而改进了这些具有挑战性的数据集上的活动学习性能，为优化 AL 策略做出了贡献，并为在专业领域高效和有效地进行数据注释提供了有前景的研究方向。

Jun, 2024

基于聚类敏感性采样的数据高效学习：基础模型与扩展

我们研究数据选择问题，将利用 $k$-means 聚类和敏感性抽样方法，基于模型损失的嵌入表示，可选择一组典型样本，其平均损失与整个数据集的平均损失相对应，具有可证明的性质，并且在微调基础模型上表现优于最先进的方法，同时展示了它如何应用于线性回归，提供了一个更简单且可扩展性更强的抽样策略。

Feb, 2024

使用数据核心比较基础模型

本文提出了一种不需要度量的基于嵌入空间几何的方法来比较基础模型，并展示了该框架如何用于诱导一组带有距离函数的模型流型，其与多个下游度量强相关。

May, 2023

基础模型简介：历史、社会和技术焦点

本文介绍了基础模型，深度学习中通过模型大小和训练数据广度和大小的扩展可以对未来的 AI 开发造成破坏。基础模型在各种任务领域（如自然语言处理和计算机视觉）中实现了最先进的性能，并且通过进一步的改进常常得到更好的表现。此外，模型的单一化可能会将众多特定任务的模型替换为由少数公司控制的更少数量的大型模型，从而导致对 AI 的权力和控制的转移，并出现新兴的行为方式：上下文学习。

Dec, 2022

GEO-Bench：地球监测基础模型

本研究针对遥感任务的基础模型研究进行了探讨，提出了一种包括六项分类任务和六项分割任务的基准测试以及可靠的评估方法，并报告了二十种基线模型的结果，旨在推动地球监测领域的模型进展。

Jun, 2023

基于 kNN 和基础模型的可适应且注重隐私的图像分类

存储底层训练数据的嵌入表示的方法，结合了 $k$- 最近邻分类器和基于视觉的基础模型，在数据隐私保护方面具有动态修改和良好的解释性和适应性，通过实验证明在基准数据集和医学图像分类任务中有更好的分类性能，同时在持续学习和数据删除场景中展现出良好的鲁棒性。

Feb, 2024

深度主动分类中的采样偏差：实证研究

本文通过大量经验研究，证明了利用 FastText.zip（FTZ）深度模型的后验熵进行主动集合选择对抗采样偏差和各种算法选择具有鲁棒性，并提出了基于深度主动文本分类的简单基线，可用于数据集压缩和半监督 / 在线学习场景。

Sep, 2019