Jun, 2023

基于大型语言模型的图像背景和描述生成字幕

TL;DR本论文提出了一种新方法,使用大型语言模型从文本描述和上下文中生成图像字幕,而无需直接处理图像,经调优后,该方法在 CIDEr 指标上优于目前最先进的图像 - 文本对齐模型,解决了使用深度学习模型进行图像字幕生成时遭遇的一些难题。