适用于视力受损人士的质量不敏感图像字幕技术
通过探索不同的混合策略,我们发现合成字幕能够增加网络爬取数据点的效用,并且在 38 个任务中,对于 ImageNet 表现比 DataComp 基准提高 2%, 平均值提高 4%。此外,我们发现使用合成字幕进行多模态训练时,标准图像字幕基准的性能并不可靠,还对 1.28B 图像 - 文本对的大规模分析提供了对合成文本的局限性和随着训练数据数量增加图像筛选的重要性的见解。
Jul, 2023
本文提出了一种新的图像字幕架构,通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成,实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验,证明该框架在多种评估指标下取得了业内最优表现。
Jun, 2020
基于图像的标题生成任务中,我们展示了通过微调自回归标题模型来生成更具体的标题,并且在解码过程中应用语言模型指导,从而在参考自由和参考依据的标题度量指标之间取得一定的平衡。
Jul, 2023
本研究介绍了一个新的大规模数据集,将图像质量问题的评估与图像字幕和视觉问答两个实际任务联系起来,并发挥了关键作用,包括新问题和算法,以决定图像是否足够质量以对其进行字幕制作,并确定图像包含的质量缺陷以及决定视觉问题是否无法回答,通过公开分享数据集和代码来促进未来的这项工作扩展。
Mar, 2020
本研究提出了一种基于多模态数据增强技术的图像字幕生成方法,旨在解决图像字幕对齐困难的问题。实验证明,本方法可以通过高质量生成图像 - 字幕对来扩充训练数据集,从而提高模型的训练效率和预测准确性。
May, 2023
提出了一种新的图像字幕生成方法,该方法能够利用无图像数据的文本数据,并使用区域图像特征生成有意义的二进制向量,从而获得更准确和多样化的字幕。该方法的主要优点是能够生成具有 Salient 图像属性的有意义的二进制向量,并通过软关注机制对其进行解码。
Nov, 2016
研究如何使用图像和相关描述文本生成合成的 Q-A 对集合,而无需人工标注,同时利用空间金字塔图像块作为一种简单而有效的 VQA 模型替代方案。
Dec, 2020
本文介绍了一种解决 2024 年 NICE 的 Topic 1 零射击图像字幕挑战的方法,通过检索增强和字幕评分方法有效地增强图像字幕,利用图像字幕模型生成的高质量字幕作为训练数据,利用基于手工模板的大规模视觉 - 语言预训练模型(OFA)执行图像字幕任务,并将字幕级策略与检索增强策略相结合,以生成更高质量、更匹配和语义丰富的字幕。基于这种方法,在排行榜上排名第一,在所有其他指标上都取得了第一名的成绩。
Apr, 2024