- 多类体积放射学影像的基于内容的图像检索:基准研究
我们在医学图像检索的上下文中,通过使用 TotalSegmentator 数据集建立了一个基准,以评估和比较预训练模型的嵌入效果,并采用文本匹配启发的后期交互再排序方法,实现了对各种解剖区域的 1.0 检索召回率。
- SpeechVerse: 一个大规模可推广的音频语言模型
通过 SpeechVerse 多任务训练和课程学习框架,将预训练的语音和文本基础模型结合,使用连续潜在表示对模型进行指令微调,实现在各种自然语言指令下在多样的语音处理任务上实现最优的零样本性能。经过广泛的基准测试,我们的 SpeechVer - 基于科学的人工智能模型认证在新的操作环境中的应用 —— 以交通状态估计为例
通过科学认证方法研究在新的工作环境中使用预训练数据驱动模型的可行性,该方法结合领域知识、理论模型和物理学等学科,提供一种安全工程系统开发工具,通过模拟结果量化预训练模型的物理不一致性,以评估在新的工作环境中使用预训练模型的适用性。
- 检索增强型零样本视频字幕生成
该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法,通过使用多个关键模型来桥接视频和文本,并使用可学习的令牌来传递信息。在实验中,该方法在多个数据集上取得了与现有最先进方法相比的 4%至 20%的 CIDEr - FREE: 更快更好的无数据元学习
通过从预训练模型中快速恢复训练任务和广义化到新的未见任务,我们提出了 Faster and Better Data-Free Meta-Learning (FREE) 框架,以解决数据恢复速度慢和异构预训练模型的缺点,实验证据表明,在多个基 - 基于核方法的改进迁移可转移性估计方法
基于核心的改进传递性估计方法 Kite 能够通过评估特征可分性和相似性来提供可靠且高效的传递性估计,在大规模模型选择基准测试中相较于现有方法实现了显著的性能提升。
- 波兰语分类任务的少样本学习评估
我们引入了一个包含 7 个不同分类任务的少样本基准,这些任务使用波兰语进行描述。通过在商业和开源预训练模型中进行 0 和 16 次试验的经验比较,我们发现 ICL 获得了最佳表现,商业模型如 GPT-3.5 和 GPT-4 达到了最佳性能。 - 自我监督领域内与监督领域外迁移学习在鸟类物种识别中的比较
该论文研究了在数据稀缺情景中,将预训练模型的权重转移用于辅助其他任务的重要性,特别是在深度学习领域中。通过对训练好的模型进行微调,可以有效改善对鸟类物种识别的性能。
- MuseumMaker: 持续自定义样式,避免灾难性遗忘
提出了 MuseumMaker 方法,使用预训练的大型文本到图像(T2I)模型,通过遵循一系列定制风格的方式不断地合成图像,并作为一个博物馆逐渐积累这些创造性的艺术作品。MuseumMaker 能同时捕捉新风格的细微差别,并保持已学习风格的 - SOPHON:非细微调学习用于限制预训练模型的任务可转移性
通过设计防护框架 SOPHON 和精心优化过程,本文介绍了一种新颖的学习范式 —— 非精调学习,可以防止强大的预训练模型被用于不道德或非法任务,同时保持其在原始任务上的性能,旨在进一步推动对安全和负责任的人工智能的研究。
- TV100:一份 CLIP 未见过的电视剧数据集
预训练模型在机器学习社区带来了丰富的新见解,本文旨在探讨预训练模型是否具备全面的知识,并提供了一个基于 2021 年后发布的电视剧图像的新数据集,该数据集在增量学习评估、新类别发现和长尾学习等多个研究领域具有重要潜力。
- IJCAILLMem:用于微调预训练 LLM 模型的估算 GPU 内存使用量
LLMem 是一种在有限硬件条件下对大型语言模型进行微调的解决方案,通过估计多个 GPU 上分布式微调方法的 GPU 内存消耗,并确定最优方法,有效应对 GPU 内存限制和快速微调的挑战。
- 面向高效简历理解的多粒度多模态预训练方法
本文提出了一种名为 ERU 的新型模型,通过引入多模态融合变压器编码简历段落的布局感知信息,设计三个自监督任务用于无标签简历的预训练,并通过多粒度序列标记任务对模型进行微调,从简历中提取结构化信息,实验证明 ERU 的有效性。
- HEAT: 头部层级参数高效调整视觉 Transformer 并利用泰勒展开法的重要性评分
使用 Head-level Efficient Adaptation with Taylor-expansion importance score (HEAT) 方法,通过计算每个头部的重要性得分来高效微调视觉转换器(ViTs),这种方法在 - 针对塞尔维亚语问答的 Transformer 模型的合成数据集创建和微调
使用改进的翻译 - 对齐 - 检索方法生成了最大的塞尔维亚问答数据集 SQuAD-sr,并使用该数据集对几个预训练的问答模型进行了微调,最佳结果表明我们的模型超过了零 - shot 基线但未超越人类表现。
- 使用预训练模型的现实继续学习方法
我们提出了一个新的连续学习(CL)范式 Realistic Continual Learning(RealCL),其中任务之间的类分布是随机的,不同于结构化设置。同时,我们引入了一个名为 CLARE 的预训练模型解决方案,旨在在保留过去学习 - 基于扩散排序的 3D 字幕观点选择
利用 DiffuRank 方法解决了在 3D 物体描述中产生错觉的问题,通过排名评估 2D 渲染视图与 3D 物体之间的对齐,提高了标题的准确性和细节,并在多个数据集上验证了其适用性。
- CVPR使用预训练视觉转换器校准高阶统计量进行少样本类别增量学习
通过使用预训练模型和高阶特征统计,可以改善少样本增量学习中的分类准确度。
- 数据集相似性和多样性对时序预测中的迁移学习成功的影响
通过在相似或多样化的源数据集上进行预训练,模型在利用迁移学习增强目标数据集的时间序列预测效率和准确性方面发挥关键作用。本研究通过对五个公开源数据集以及包括实际批发数据在内的五个目标数据集的预测结果进行系统评估,确认了基于特征的相似性和多样性 - CVPR使用预训练大型多模态模型的音频视觉广义零样本学习
利用预训练模型,包括 CLIP 和 CLAP 提取特征,结合文本编码嵌入以提高性能,我们提出了一个仅依赖前馈神经网络的简单而有效的模型来处理音频视觉的零样本学习,并在 VGGSound-GZSL、UCF-GZSL 和 ActivityNet