基于最优输运的 PLOT 方法用于视觉语言模型的提示学习
本文提出一种叫做上下文提示学习的框架,用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示,通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。
Jul, 2023
通过使用最优传输,我们提出了联邦化的提示协作方法(FedOTP),该方法采用高效的合作提示学习策略,以在每个客户端上捕获多样的类别特征,从而在数据异构性方面优于现有方法。
Feb, 2024
本研究提出一种基于 CLIP 和 text-prompt learning 的零样本分割方法,通过最优传输匹配多个文本提示和冻结的图像嵌入来提高分割性能,并且通过深度局部特征对齐进一步优化。经过大量实验证明,该方法在所选数据集上取得了与之前最先进方法相媲美的表现。
Jan, 2023
本论文介绍了一种新颖的少样本学习中的时间动作定位 (TAL) 方法,通过在实际视频中泛化不同情境的能力来解决常规单提示学习方法存在的过拟合问题。采用多提示学习框架,增强了每个动作的一组多样化提示,更有效地捕捉通用特征并减少过拟合风险。此外,利用最优输运理论,高效地将这些提示与动作特征对齐,优化了适应视频数据多方面特性的综合表示。实验证明了我们提出的多提示最优输运方法在 THUMOS-14 和 EpicKitchens100 的标准数据集上能够显著提高少样本 TAL 方法的定位准确性和鲁棒性,突出了其有效性。
Mar, 2024
本研究提出了一种使用仅文本数据学习通用提示的方法,通过将 LLL(large language models)中的上下文数据映射到学习到的提示中,实现了零样本转移,并在 4 个基准测试上进行了广泛评估。
Jan, 2024
本文介绍了如何使用 CoOp, 一种基于学习来应用 CLIP vision-language 模型用于下游图像识别任务的简单方法,以解决使用自然语言描述类别来进行分类训练领域专业性强、耗时的问题,并证明其比手工制作的提示更好。
Sep, 2021
本文提出了一种无监督提示学习(UPL)方法,以避免提示工程并同时提高类似 CLIP 的视觉语言模型的传递性能。该方法实验结果显示,在 ImageNet 以及其他 10 个数据集上,与原始 CLIP 相比,UPL 具有更优秀的传输表现,并且增强版的 UPL 在大多数数据集上甚至能够与 8-shot CoOp 和 8-shot TIP-Adapter 竞争。
Apr, 2022
本文介绍了一种软提示学习的方法,用于 Vision & Language 模型。该方法通过使用第二交叉熵损失来最小化学习的软提示与手工工程提示之间的距离,进而提高模型性能,并能够训练虚拟类。在 11 个数据集上进行的广泛评估表明,该方法显著优于所有先前的软提示工作,并在大多数测试数据集上匹配和超越手工制作提示和 CLIP 的新类准确性。
Oct, 2022
这篇文章介绍了一种基于贝叶斯概率理论的视觉 - 语言预训练模型关键词学习方法,该方法通过优化可视化知识和充分利用图像与相应提示的语义联系,在充分表达不同特性的同时保证泛化性能,该方法具有良好的转移性能和泛化性能,结果表明该方法比一般的提示工程技术更加优秀。
Mar, 2023