ACLJul, 2023

CFSum:一种用于多模态摘要的粗粒度到细粒度贡献网络

TL;DR我们提出了一种新的粗略到精细的多模态总结贡献网络 (CFSum),以考虑图像在总结中的不同贡献。CFSum 在标准基准测试中明显优于多个强基线,并通过分析验证了图像对生成隐含在图像中的非视觉词语的帮助。