高效的视觉语言模型测试时间自适应
为了使现有的视觉模型适应于不同的下游场景,本文探讨了在线测试时间自适应方法在各种真实世界场景下的表现,并针对该方法的局限性提出了一种特别保守的方法——使用LAME目标来解决问题,并通过高效的凸凹过程求解该目标,从而使其在场景中表现更佳。
Jan, 2022
本研究提出了一种主动样本选择的准则,以确定可靠和不冗余的样本,从而使模型更新以最小化测试时适应的熵损失。 同时,引入了一个Fisher正则化器,约束重要的模型参数使其不会发生剧烈变化,从而缓解“灾难性遗忘”的问题。
Apr, 2022
本文提出一种用于数据有效且准确实现目标领域适应的测试时适应问题解决方案(Data-efficient Prompt Tuning,DePT),其使用镜像学习方式将交互式提示信息细化到视觉Transformer模型中,在测试时自适应调整模型引用的提示以提升模型对目标域的表示,且具有适用于许多测试适应问题的能力。
Oct, 2022
提出一种测试时反馈方法来解决视觉-语言模型的输出与任务目标之间的不匹配问题,以避免模型过拟合于其不正确的输出分布。具体而言,采用CLIP作为奖励模型,在不同的任务中,包括图像分类、图像文本检索和图像标题生成等。通过强化学习,以最大化CLIP奖励为目标来进行单一测试样本的训练。经过广泛实验,证明了这种测试时反馈方法可以显著提高不同的视觉-语言模型的结果。
May, 2023
通过引入测试时间原型偏移(Test-Time Prototype Shifting,TPS)框架,我们在共享嵌入空间中调制每个类别的原型,动态地学习每个原型的偏移向量,从而弥合领域差距,提高分类准确性,并在减少资源需求的情况下取得创新性能的优势。
Mar, 2024
对视觉-语言模型的测试时间适应性策略进行系统探索,包括提示工程策略和现有的测试时间适应方法,以提高模型在真实场景中的适应性和鲁棒性。
May, 2024
研究表明,零温度的TTA方法(ZERO)能够在只进行一次前向传播的情况下,准确性大大超过或与现有技术相当,且速度约为10倍快,内存占用约为13倍少。
May, 2024
我们提出了一个创新框架,用于在开放和动态环境中解决单图测试时间适应的现实挑战。我们利用大规模视觉语言模型(如CLIP)在没有源数据或准确标签的情况下,实现了对每个图像的实时自适应。我们首先使用一个简单而有效的OOD(外分布)检测模块区分弱OOD样本和强OOD样本,以应对部署模型可能遇到的未知类别。通过利用小而动态更新的特征库,我们提出了一种基于对比学习的目标函数,增强了弱OOD样本和强OOD样本之间的可区分性。最后,我们还使用可靠的弱OOD样本来实现模型的分类自适应。提出的ROSITA框架将这些组件结合起来,实现了视觉语言模型的连续在线自适应,且适用于单个图像。通过对不同领域自适应基准的广泛实验,验证了该框架的有效性。我们的代码可以在项目网址中找到(链接已省略)。
Jun, 2024
本研究解决了训练数据与测试数据之间存在显著分布差距的问题。通过引入分布式测试时适应(Dota)方法,模型能够持续估计测试样本分布,进而适应具体的部署环境。实验结果表明,Dota显著提升了CLIP模型的性能,使其在不确定样本上的适应能力得到增强。
Sep, 2024
本文针对预训练视觉-语言模型在下游任务适应性不足的问题,提出了一种新颖的方法,通过区域引导和轻量级内存机制,提升测试数据的适应性。研究表明,该方法在跨域和分布外的数据集上表现出色,展现了其在实际应用中的广泛潜力。
Oct, 2024