IG 字幕生成器:信息增益字幕生成器是强零样本分类器
提出了一个 CLIP 引导的文本生成对抗网络 (CgT-GAN) 模型,通过引入图像数据进行训练,结合语义指导奖励 (CLIP-based reward) 和生成文本的自然度奖励来生成与外部语料库相似的文字。在实验证明,CgT-GAN 在各项指标上明显优于现有的最先进方法。
Aug, 2023
通过使用扩散模型的去噪能力作为代理,将零样本分类器应用于 Imagen,探究其知识方面并与 CLIP 进行比较,结果显示 Imagen 与 CLIP 在零样本图像分类方面表现相当,同时在形状 / 纹理偏差测试方面取得了最先进的结果,能够成功地执行属性绑定,而 CLIP 则不能。因此,我们认为应该探索将生成预训练作为一种有吸引力的视觉和视觉语言问题的替代方法。
Mar, 2023
本文提出在自我监督的证明性沟通目标情况下对预先训练的神经字幕系统进行微调,使其生成更详细的图像描述,并在 Conceptual Captions 数据集上进行验证。
Apr, 2023
本研究提出了一种基于解释性的方法来解决在零样本学习和图像生成中使用 CLIP 时输入文本的稳定性问题,此方法通过增加一项损失项来确保 CLIP 关注所有相关的语义部分,并且可以提高图像识别率和生成图像的质量。同时,研究还展示了 CLIP 在一次性分类、对生成模型进行指导和有空间条件的基于文本的图像生成方面的新型应用。
Apr, 2022
该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法,通过使用多个关键模型来桥接视频和文本,并使用可学习的令牌来传递信息。在实验中,该方法在多个数据集上取得了与现有最先进方法相比的 4%至 20%的 CIDEr 主要评价指标的改进。
May, 2024
我们提出了 GC-CLIP,通过在预处理步骤中使用现成的零样本目标检测模型,增加零样本分类器对感兴趣目标的关注,并减少无关图像区域的影响,从而提高了零样本分类结果。
Sep, 2023
对比语言 - 图像预训练(CLIP)已经因其非凡的零 - shot 能力而受到广泛关注。本研究聚焦于开发高效的微调方法来提升 CLIP 在下游任务中的性能,其中包括提示学习和适配器。然而,这些方法仍然需要额外的训练时间和计算资源,对于资源有限的设备来说并不理想。因此,我们重新审视了经典算法高斯判别分析(GDA),应用它于 CLIP 的下游分类中。通过利用贝叶斯公式,高斯判别分析假设每个类别的特征都服从具有相同协方差的高斯分布。我们将 GDA 与 CLIP 中的原始零 - shot 分类器进行集成,以融合视觉和文本模态的知识。对 17 个数据集进行广泛的实验证明,我们的方法在少样本分类、不平衡学习和超出分布泛化等方面超过或达到了与最先进方法相当的结果。此外,我们还将我们的方法扩展到基于新类别的推理和无监督学习,再次展示了其优越性。我们的代码在 https://github.com/mrflogs/ICLR24 上公开可用。
Feb, 2024
通过减少视觉和文本之间的模态差异,我们提出了一种零摄影机图片字幕框架,通过仅使用文本进行训练和引入局部图像区域特征聚合、噪声注入和 CLIP 排序策略来提高字幕性能,并证明其在 MSCOCO、Flickr30k 和 VQAV2 等数据集上具有显著的性能提升。
Jan, 2024
人类语义相关且医学领域精确的元标签在皮肤病学中的 AI 分类模型培训中十分稀缺,CLIP 模型可通过利用互联网上的大量图像 - 标题对进行零样本学习以解决数据缺乏的问题,并可以通过使用领域特定的图像 - 标题对对其进行微调来提高分类性能。
Apr, 2024
本文研究了大型语言模型 (Large Language Models, LLMs) 在上下文学习 (In-context Learning, ICL) 方面的能力和稳定性问题,并提出了通过量化数据示例的信息增益 (Information Gain, IG) 来选择具有最大信息增益的样本的方法,同时引入了模板偏差 (template bias) 的校准策略,实验证明该方法能够显著提升三种 LLMs 在六个分类任务上的性能。
Oct, 2023