Feb, 2024

独特的图像字幕化:借助 CLIP 引导强化学习的基准真实字幕

TL;DR用训练图像字幕模型的教师强迫方法生成的样本非常通用,而更具有独特性的字幕对于检索应用或生成描述图像的替代文本以提高可访问性非常有用。这篇论文提出了一种新的图像字幕模型训练策略,其中利用了不同方式的真实字幕,从而在保持高写作质量的同时生成高度独特的字幕。