KDDMar, 2024

基于 Transformer 的多任务学习用于图像标题生成和物体检测

TL;DR本文介绍了一种创新的多任务学习框架,将图像描述和目标检测结合为一个联合模型。通过联合训练,该模型充分利用了两个任务之间的互补信息,使图像描述的性能得到改进。我们的方法利用了一种基于 Transformer 的架构,实现了端到端的网络集成,同时执行两个任务。通过对 MS-COCO 数据集进行全面的实验评估,我们的模型在图像描述文献中表现优于基线,BERTScore 提升了 3.65%。