BriefGPT.xyz
Ask
alpha
关键词
cross-modal guidance
搜索结果 - 3
利用语言模态的指导改进视觉异常检测
该论文提出了跨模态引导(CMG)方法,通过跨模态熵减少(CMER)和跨模态线性嵌入(CMLE)来解决视觉模态中多余信息和稀疏空间的问题,实验证明该方法优于仅使用图像的基准方法 16.81%。
PDF
9 months ago
跨模态检索遇见推理:通过跨模态检索提升零样本分类
通过跨模态引导和模态置信度集成,X-MoRe 方法利用 CLIP 的跨模态表示能力,从外部图文对数据集中检索相关的文本信息,并通过赋予可靠性更高的模态对最终预测产生贡献,从而在多样化的任务中展示了稳健的性能,充分发挥了 CLIP 的零样本分
→
PDF
10 months ago
UPainting: 统一的跨模态引导文本到图像扩散生成
本文介绍了 UPainting 这个同时适用于简单和复杂场景图像生成的模型,利用预训练的 Transformer 语言模型作为文本编码器,结合预训练的图像 - 文本匹配模型进行跨模态引导,提高了生成图像的样本保真度和图像 - 文本对齐程度。
→
PDF
2 years ago
Prev
Next