ICCVSep, 2023

发明专利图生成短长说明

TL;DR介绍了 Qatent PatFig,这是一个创新的大规模专利图像数据集,包括来自超过 11,000 个欧洲专利申请的 30,000 多个专利图像。每个图像都提供简短和长篇的描述、参考编号及其相应的术语,以及描述图像组件之间相互作用的最小索赔集。通过在 Qatent PatFig 上微调 LVLM 模型以生成简短和长篇描述,并研究在专利图像字幕生成过程中加入不同的基于文本的线索在预测阶段的效果,评估了数据集的可用性。