CLIP 能帮助声源定位吗?
利用对比语言 - 视觉模型 CLIP,我们可以实现无需人工注释或额外训练的短语定位方法,其零样本短语定位性能优于现有无训练方法,并在某些情况下甚至超过了有监督的方法。
Apr, 2022
本文提出了一种名为 SpeechCLIP 的新框架,通过图像将语音和文本结合起来,从而改善语音模型的性能,无需直接从转录中进行监督。SpeechCLIP 使用先进的预训练 HuBERT 和 CLIP 模型,并通过配对的图像和口头字幕进行对齐,实现了零样本语音 - 文本检索和语音中关联关键字的提取。
Oct, 2022
通过对数据规模和语言源域差异的研究,本文提出了一种基于 CLIP 的 OmniSource 跨模态学习方法,称为 CLIP-ViP,通过视频代理机制改进后续预训练 CLIP,从而实现显著提高视频 - 文本检索的性能。该方法在多个数据集上均取得了 SOTA 结果。
Sep, 2022
通过提出 ReCLIP 方法,第一个无需源数据或目标标记数据的视觉 - 语言模型领域自适应方法,该方法使用伪标签进行交叉模态自训练以减小领域间差异和错位对模型性能的影响,在 22 个图像分类基准测试中将 CLIP 的平均错误率从 30.17% 降低到 25.06%。
Aug, 2023
此研究探讨了使用大规模预训练模型(CLIP 和 HuBERT)进行多语言语音图像检索的方法,并取得了比现有最新技术更好的非英语语音图像检索成果。
Nov, 2022
利用预训练模型和未标注视频数据,本研究提出了一个新的方法来实现从文本到音频的合成。研究使用频繁出现的视听对应来克服高质量文本标注存在的难点,并通过传输模式来进一步提升性能。
Jun, 2023
本研究提出了一个扩展 CLIP 模型,使用 AudioSet 数据集来支持音频的双模和单模分类以及查询,同时保持了 CLIP 模型的零样本推理能力。此模型在环境声音分类任务上取得了新的最佳结果,并评估了提出模型的跨模态查询表现以及全量和部分训练对结果的影响。
Jun, 2021
研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势,通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务,CLIP 显著优于现有的视觉编码器,并在多种视觉与语言任务中取得竞争或更好的结果,同时取得了 Visual Question Answering,Visual Entailment 和 V&L Navigation 等任务的新高峰。
Jul, 2021
本文提出了一种利用 CLIP 模型进行半监督图像标注的方法,包括图像编码器、映射网络和语言模型,通过对比生成的标题和实际标题,并使用未标记的图像进行二次训练,得到了与完整数据集训练的业界最先进模型相比可比的性能,且标题更加独特、信息量更大,并且符合人类的偏好。
Jun, 2023
通过在大量文本图像对上进行自我监督的对比学习,RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时,利用模态内和跨模态的排序一致性来提高对齐过程,捕捉每种模态之间和内部的细致的多对多关系,有效提升各种下游任务的性能,尤其在零样本分类方面,显著超越现有方法,突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。
Apr, 2024