Jun, 2023
基于大型语言模型的图像背景和描述生成字幕
CapText: Large Language Model-based Caption Generation From Image Context and Description
Shinjini Ghosh, Sagnik Anupam
TL;DR本论文提出了一种新方法,使用大型语言模型从文本描述和上下文中生成图像字幕,而无需直接处理图像,经调优后,该方法在 CIDEr 指标上优于目前最先进的图像 - 文本对齐模型,解决了使用深度学习模型进行图像字幕生成时遭遇的一些难题。