- 在指令调优过程中的零样本泛化:相似性和粒度的见解
使用多种度量标准首次证明了指导调整过程中的零样本泛化是一个基于相似性的从训练数据到测试数据的在实例级别上的推理表现,我们的分析有助于推动对指导调整过程中零样本泛化的理解,并为更加对齐的 LLMs 的发展做出贡献。
- ACLOLIVE:物体级别的上下文视觉嵌入
通过在上下文中引入视觉对象向量,我们提出了一种新的方法来引导大型语言模型,从而实现可控的对象级推理,消除了融合冗长图像区块特征的必要性,显著加速了训练。此外,我们还提出了使用对象表示进行区域级检索的方法,便于快速适应新对象而无需额外训练。我 - $\mu$LO: 计算高效的元泛化学习优化器
通过使用最近提出的最大更新参数化理论 (Maximal Update Parametrization),我们扩展了学习优化器的元训练问题,实现了从小型模型到大型模型的零 - shot 泛化 (optimizer hyperparameter - 纯文本合成图像描述
提出了 ToCa 方法,通过将标题文本分解为结构和词汇单词,利用大型语言模型生成包含各种词汇模式的大量标题,从而实现对图像标题生成的非人力和计算成本的进一步放宽。
- TIMA: 文本 - 图像相互感知的零样本鲁棒性与泛化能力平衡
通过引入一种新的文本图像相互感知(TIMA)方法,这项工作提出了一种旨在在大规模基础模型中实现零 - shot 对抗鲁棒性并保持零 - shot 泛化的挑战,重点关注流行的对比语言图像预训练(CLIP)模型。该方法在小型对抗扰动下在零 - - 零样本策略学习的极简提示
通过在任务参数上进行调节,基于 Transformer 的模型展现出了与依赖演示任务相当甚至更好的零样本泛化能力。
- 通过文本引导的多样的新颖特征合成将 CLIP 普及到未知领域
我们提出了一种插拔式特征增强方法,称为 LDFS(语言引导的多样特征合成),通过合成新领域特征和改进现有的 CLIP 微调策略,从未见过的领域中提高 CLIP 的泛化能力,而无需从这些领域收集数据。
- CVPR第三届单目深度估计挑战
本研究讨论了第三届单目深度估计挑战赛(MDEC)的结果,重点关注挑战赛对具有复杂自然和室内场景的 SYNS-Patches 数据集的零样本泛化。挑战赛接收了总共 19 份提交报告,其中有 10 份报告详细描述了他们的方法,突出了在方法核心使 - 指导事项对于特定任务的指导调优中的简单而有效的任务选择方法
指导调优通过仅利用指导信息来识别相关任务,并另外学习元数据集的独特指导模板风格,提高任务选择准确性,从而改进了性能。
- 推断行为特定的上下文在强化学习中提升零样本泛化能力
本文中,我们在强化学习中解决了零样本泛化的挑战,通过理解和利用环境的上下文线索,将上下文表示的学习与策略学习相结合,提出了一种算法。我们的算法在各种模拟域中展示了改进的泛化能力,在零样本情境中优于先前的上下文学习技术。通过同时学习策略和上下 - CVPRPromptSync:通过分类感知的原型对齐和判别消除视觉语言模型中的领域差距
通过分类原型对齐和提示同步来提高视觉语言模型的零样本泛化能力和处理类别不平衡问题,并在测试中取得明显优于其他方法的结果。
- 视觉自回归建模:通过下一尺度预测实现可扩展图像生成
Visual AutoRegressive modeling (VAR) improves autoregressive image generation surpassing diffusion transformers, exhibit - Metric3D v2: 用于零样本度量深度和表面法线估计的多功能单目几何基础模型
通过提出一个几何基础模型 Metric3D v2 来实现从单张图像中进行零样本度量深度与表面法线估计,解决了度量 3D 恢复中的度量深度与表面法线估计方面的问题,并实现了对不同设置相机的图片的零样本泛化。
- 零 - shot 泛化的机器人运动规划的联邦强化学习
本文提出了一个零样本泛化的机器人运动规划学习控制策略的问题,在新环境中部署学习策略时不需要数据收集和策略调整;开发了一个联邦强化学习框架,可以实现多个学习者和中央服务器(云)协作学习,而无需共享原始数据;在每次迭代中,每个学习者上传本地控制 - 预训练变换器用于肺癌分割的可信度
基于 670 个 CT 和 MRI 扫描,评估了两个自监督预训练的 Transformer 模型 Swin UNETR 和 SMIT 在肺肿瘤细分领域的可信度。模型表现出了较高的准确性和稳健性,并在不同领域的 CT 和 MRI 扫描中展现了 - 梦想着众多世界:学习上下文世界模型助于零样本泛化
提出了一种称为 cRSSM 的上下文循环状态空间模型,该模型通过将上下文与观察值结合起来,改进了 Dreamer 的世界模型,从而提高了在未见上下文情况下训练的策略的零 - shot 泛化能力。
- 基于时空 SAM 适应的心脏磁共振 2D+T 短轴和长轴分割
利用 CMR2D + T-SAM 对 2D + T 心肌分割进行了改进,通过空时调整和 U-Net 框架,利用文本提示以单一模型实现了对短轴和长轴视图的准确分割,在 STACOM2011 数据集上取得 0.885 的心肌 Dice 分数和 - 视觉语言对象检测的零样本可迁移增量学习
本文提出了一种增量的视觉 - 语言物体检测(IVLOD)学习任务,旨在在保持泛化能力的同时,逐步调整预训练的视觉 - 语言物体检测模型(VLODMs)以适应不同的专用领域。为了解决这一新挑战,我们提出了一种称为 Zero-interfere - 放松休息 ++:利用慢速电视和婴儿电视扩展超越地面真实深度
通过自监督学习,本研究提出两个新的数据集:SlowTV 和 CribsTV,用于解决自监督单目深度估计 (SS-MDE) 中缺乏多样性训练数据的问题。这些数据集是从公开可用的 YouTube 视频中精心策划而来,包含总共 200 万个训练帧 - 多模态指令调节与条件化 LoRA 混合
通过与多模态指令调优相结合,引入了一种综合了条件的低秩适应矩阵 (MixLoRA) 的新方法,旨在减轻任务干扰,实现在多样的多模态任务中具有良好的适应性和灵活性。实验结果表明,MixLoRA 不仅在相同或更高秩的情况下胜过传统的低秩适应方法