基于混合对比学习的星系基础模型构建
本文提出了 GALAXY,一个使用半监督学习从有限标注的对话和大规模无标签的对话语料中显式地学习对话策略的新型预先训练对话模型。实验结果表明,GALAXY 显著提高了任务导向对话系统的性能,在 In-Car,MultiWOZ2.0 和 MultiWOZ2.1 基准数据集上取得了新的最优结果,并且在各种低资源设置下表现出更强的少样本学习能力。
Nov, 2021
我们首次系统研究了在星系图像上监督扩展定律的问题。使用了 840k 个星系图像和超过 1 亿个由 Galaxy Zoo 志愿者注释的图像,与 Imagenet-1K 的规模相当。我们发现添加注释的星系图像可以在所有架构和所有任务上提高性能,而添加可训练参数仅对某些任务有效。我们比较了仅在 ImageNet-12k 上进行预训练和在我们的星系图像上额外进行预训练的模型的下游性能。在 5 个科学相关的下游任务上,我们实现了平均相对误差率降低 31%的结果。我们的模型对标签的利用效率更高,而且通常实现了端到端微调的线性转移性能,与仅在 ImageNet-12k 上预训练的模型不同。我们发现仅通过扩展模型尺寸获得的额外下游效益相对较小,这意味着单纯的扩展不足以解决我们的领域差距问题,并建议具有定性不同的图像的从业者在领域内适应之后进行有针对性的下游分类。
Apr, 2024
本文提出了使用混合变压器卷积结构及选择数据增强和正则化技术的方法学习更少量的数据以从现代天文调查中提取物理信息,此方法在 Galaxy10 DECals 数据集上取得了 94.86% 的精度,在 CIFAR-100 和 Tiny ImageNet 上也实现了新的最佳效果。
Apr, 2023
利用自监督预训练技术在大规模卫星数据上取得了重要进展,同时发现在地表覆盖地表利用产品等自由全球语义信息资源和自然世界的视觉基础模型等重要资源的应用能显著提高地球观测预训练的效率和效果。
May, 2024
通过利用大视觉模型和少样本学习等方法,本文提出了一个通用分析星系图像的框架,解决了天文数据处理中的重复工作和数据分布不平衡的问题,并通过人类知识的加入提高了处理星系图像的可靠性和解释性。该框架在星系图像的多个任务上展现了显著的少样本学习能力和通用适应性,为多模态数据的集成分析提供了可能性。
May, 2024
通过引入生成器对比学习框架(GenCo)作为预训练方法,本文研究了在遥感和地球观测中基于少样本学习的分类和语义分割任务,并在农业视觉和 EuroSAT 两个重要遥感数据集上展示了优于纯监督训练的效果。
Jul, 2023
该研究提出一种混合无监督 / 监督学习方法,结合反差预训练模型和预测粗略海拔图像的预文本任务,以处理只有少量标签的地球观测下游任务,并评估其在分割和图像分类任务中的实验结果。
Apr, 2023
该研究提出了一种新型的学习范式 - 统一对比学习(UniCL),通过将人类标注的图像标签数据和网络爬取的图像文本数据相结合,学习出在零样本,线性探测,完全微调和迁移学习方案中具有语义丰富而有区分性的表示。在各种基准测试中,UniCL 的性能均优于语言图像对比学习和监督学习方法,并且在纯图像标签数据上,其表现也不亚于监督学习方法。
Apr, 2022
本篇研究利用一种基于深度神经网络的方法,通过对称性原理对 SDSS 和 Galaxy Zoo 的星系图像进行分类,能够在大规模的图像数据集上高效准确地进行星系形态分类,这一方法在提高工作效率的同时也能保持非常高的分类精度。
Mar, 2015