Jul, 2023

释放文本的想象力:通过探索文字的力量实现文本到图像的人员检索的新框架

TL;DR提出了一种用于文本到图像人物检索的新框架,旨在充分发掘句子中的词语力量。通过使用预训练的全 CLIP 模型作为图像和文本的双编码器,以及引入文本引导的图像恢复辅助任务和针对难样本的交叉模态三元组损失,该方法在三个流行的基准数据集上取得了最先进的结果。