ACLMay, 2020

跨模态统一建模技术用于字幕生成

TL;DR该论文利用与计算模型相关的连贯性关系研究了图像字幕生成的信息需求和目标,通过特定的协议,获取 10,000 个图像与字幕的连贯性关系,将其用于学习推理的新任务,得到的结果显示,通过连贯性关系提高了生成的字幕的一致性和质量。