Dec, 2023

以用户为中心的前缀调优是个性化图像字幕的良好学习器

TL;DR我们提出了一种个性化的图像描述框架,通过融合用户上下文以考虑个性因素并从一个冻结的大型语言模型中提取知识来减小不同语言领域之间的差距,提高了模型的效率和效果。我们的模型在 Instagram 和 YFCC100M 数据集上比现有基准模型表现出更好的结果,包括在 BLEU-4 和 CIDEr 等指标上的两倍改进。