Jun, 2023

基于排序和 LLM 融合的图像标注描述性改进

TL;DR本文提出了一种将 SoTA 模型生成的不同字幕进行有效融合的新方法,通过使用图像文本度量来排名模型生成的字幕,然后使用大语言模型(LLM)融合前两个字幕,实验结果表明,我们的方法可以增强字幕的质量和吸引力,缩小了自动化系统与人类生成的描述之间的差距,并开辟了为视觉 - 语言和字幕模型生成更适宜的字幕的新可能性。