BriefGPT.xyz
Ask
alpha
关键词
cider score
搜索结果 - 2
针对新闻图像字幕生成的实体感知多模态对齐框架
新闻图像标题任务是图像标题任务的一种变体,要求模型生成与新闻图像和相关新闻文章更相关的标题。多模态大型语言模型在近年来得到快速发展,并在新闻图像标题任务中具有良好的前景。然而,根据我们的实验,普通的多模态大型语言模型在零样本学习环境中生成实
→
PDF
4 months ago
ICCV
将时间和空间注意力融合在 VATEX 视频字幕挑战 2019 中
该论文提出了一种用于视频字幕生成的模型,该模型在时间和空间上均考虑了注意力机制,并通过后期融合策略将这两种机制结合起来,从而显著提高了生成字幕的性能,达到了 73.4 的 CIDEr 得分,并在 VATEX 视频字幕生成挑战赛上获得第二名。
PDF
5 years ago
Prev
Next