- 研究自监督方法以实现标签高效学习
视觉变换器结合自监督学习,在分类、分割和检测等多个下游任务上能够扩展到大规模数据集。我们通过比较预训练模型,在不同自监督预训练任务(对比学习、聚类和掩模图片建模)的低样本学习能力以及应对崩溃的方法(居中、ME-MAX 和 Sinkhorn) - 线性复杂度语言模型的尺度定律
本研究通过研究线性复杂度语言模型的扩展性建立了基础,并对三种高效的线性架构进行了扩展行为的分析。结果显示,现有的线性复杂度语言模型在扩展能力、语言熟练度和知识保留方面与传统基于 transformer 的模型相似。
- 重新思考大型语言模型剪枝:重构误差最小化的好处和陷阱
通过分割模型、顺序修剪、重构稠密对应模型的预测,及时合并稀疏子模型,本文首次提出了一系列重建技术,可以显著降低高复原误差,并发现最小化复原误差并非总是理想的,引入自动生成校准数据的策略以平衡复原和泛化之间的权衡,为剪枝大型语言模型的新方向提 - 连接事实:LLMs 可以从不同的训练数据推理和表达潜在结构
大型语言模型面临的安全风险可以通过从训练数据中删除危险知识来解决,但隐式信息可能仍然分布在各个训练文档中,我们研究了一种称为归纳无上下文推理的泛化类型,通过从训练文档中分散的证据中推断潜在信息并将其应用于下游任务,并展示了大型语言模型可以执 - Transformer 中的无限长前缀
研究了前缀学习的学习能力,通过无限长度前缀在一层注意力网络中的表达和解决问题,证实了无限长度前缀学习在注意力中的过度参数化性质和任意小的损失收敛性保证。提出了 NTK-Attention 方法,可实现任意前缀长度的注意力计算,具有参数效率高 - 关于采用领域相邻的精调模型集合在少样本问题中的效果的实用性
利用领域相邻模型进行零样本或少样本学习的框架 DAFT-E 在零样本问题上表现接近单一最佳模型的准确性,在少样本问题上性能进一步提升,能够胜过任何单一领域相邻模型,同时需要更少的领域特定数据进行微调。
- 检索增强生成的统一主动检索
通过统一的主动检索准则,提出了退化增强生成(Retrieval-Augmented Generation,RAG)中重要的主动检索方法,并演示了在四个用户指令类型上的显著性能提升及对下游任务的帮助。
- KDD预训练视觉 - 语言模型的高效和长尾泛化
针对使 CLIP 适应现实世界的挑战,我们提出了一种名为 Candle 的新框架,通过引入新的损失函数、跨模态注意力和虚拟原型来实现高效、长尾泛化,该方法在 11 个不同数据集上展示出了卓越的性能,并大大减少了训练时间。
- ptt5-v2:对 T5 模型在葡萄牙语上的持续预训练的深入研究
本文介绍了继续预训练 T5 模型的研究,特别是在葡萄牙语方面的应用及其对下游任务的影响,通过实验和优化配置获得了令人满意的结果。
- 医学基础模型综述
基于自我监督方法使用大规模数据集训练的基础模型(FMs)被广泛应用于各个领域,包括医疗保健领域,特别在自然语言处理、医学图像分析、临床大型语言模型和病理组学数据等方面。该综述论文全面概述了 FMs 在医疗保健领域的历史、学习策略、旗舰模型、 - ICML候选伪标签学习:通过无标签数据及时调整以增强视觉 - 语言模型
通过候选伪标签学习方法(CPL)在下游任务中使用适当的候选伪标签细调视觉 - 语言模型(VLMs),以提高 VLMs 在大量无标签数据上的 True 标签包含能力和类别平衡实例选择效果。
- PixRO: 基于像素分布的旋转测距与高斯置信传播
本文提出一种新的方法,通过像素层面的局部信息和邻域像素的本地信息传递,实现对帧间旋转估计的估算,从而产生高级、有信息的线索,而不是原始像素读数。
- A$^{2}$-MAE:一种基于锚点感知屏蔽自编码器的空时谱统一遥感预训练方法
利用遥感数据构建了一个空间 - 时间 - 光谱结构化数据集(STSSD),并提出了一个新方法(A$^{2}$-MAE),通过预训练相互补充不同类型的遥感图像和地理信息来重构遮蔽补丁,实现了多种下游任务的全面改进。
- SynthForge: 利用可控 3D 生成模型合成高质量人脸数据集
建立在真实数据基础上的生成模型能够以可控的方式呈现逼真的数据,但由于缺乏三维一致性注释和生成样本分布受限等问题,使用这些生成模型生成的数据进行下游任务训练仍未得到充分探索。为了解决这些挑战,我们从一个现有的可控生成模型中提取三维一致性注释, - 嵌入模型何时比其他模型更有前途?
本研究提出了一种统一的评估嵌入模型的方法,通过建立理论基础并利用信息充分性的概念进行比较,为自动排序过程提供了一种可操作的标准,展示了实验证明该方法与嵌入模型在自然语言处理和分子生物学中支持各种下游任务的能力密切相关,为实践者提供了一种有价 - RS-DFM:一种用于多样化下游任务的遥感分布式基础模型
提出了一种基于广义信息映射和交互的远程感知分布式基础模型(RS-DFM),可以通过将观测映射到统一空间并实施任务不可知的信息交互策略,实现多平台和各种下游任务的在线协同感知。
- 医学表征学习的视觉 - 语言对比方法的基准评估
我们在医学领域中对比了多模式表示学习的综合性基准测试。通过这项研究,我们旨在回答以下研究问题:(i)通用领域表示对医学领域有多大的可转移性?(ii)多模式对比训练是否足够,还是还需要单模态训练的益处?(iii)特征粒度对多模式医学表示学习的 - MATES: 基于模型的数据选择与数据影响模型的高效预训练
使用模型感知数据选择方法 (MATES) 能够在预训练模型中持续调整数据选择,契合当前预训练进展并在后续任务中显著提高性能。
- ACLMedREQAL: 通过问答方式检验大型语言模型对医学知识的记忆能力
近年来,大型语言模型(LLMs)在大文本语料库的预训练过程中展示了令人印象深刻的知识编码能力。本研究通过构建一个新的基于系统评述的数据集,评估了六种 LLMs(如 GPT 和 Mixtral)在医学知识回忆方面的能力,并揭示了此任务的复杂性 - CorrMAE:预训练具有遮盖自编码器的对应变换器
我们提出了一种预训练方法,通过重构遮蔽通信并提供强大的初始表示,以获取普适的内点一致性表示,从而在后续任务中取得显著的改进。