视觉 + 语言应用:一项综述
本次调查聚焦于十项著名任务,介绍其问题形式、方法、现有数据集、评估措施,并与相应的最新方法进行比较。我们的工作超越早期的调查,既非任务特定的,也不仅针对一种类型的视觉内容,即图像或视频。此外,我们还提供了该研究领域的一些潜在未来方向,期望此次调查能激发革新性的思路和想法,以解决现有挑战并构建新的应用。
Jul, 2019
在人工智能领域的演变环境中,图像与文本信息的融合已成为一个关键的领域,引发了图像 - 文本多模态模型的出现。本文全面回顾了图像 - 文本多模态模型的发展和现状,探讨了其应用价值、挑战和潜在研究方向。通过细分演化阶段,提出了三个不同阶段的分类,根据其引入时间和对学科的影响。此外,根据任务在学术领域的重要性和普及性,对图像 - 文本多模态模型相关任务进行了五个主要类型的分类,阐明了每个类别内的最新进展和关键技术。尽管这些模型取得了显著成就,但仍存在许多挑战和问题。本文深入探讨了图像 - 文本多模态模型固有的挑战和限制,促进了未来研究方向的探索。我们的目标是提供对图像 - 文本多模态模型研究现状的全面概述,并为未来学术工作提供有价值的参考。我们邀请广大学术社区共同合作,推进图像 - 文本多模态模型社区的发展。
Sep, 2023
通过 “跨模态生成” 这一视角回顾了关于从文本生成视觉数据的研究,对各种针对输入文本并产生视觉输出的方法进行了比较和对比,并提出了在领域中的常见模板,逐一探讨了图片 - 文本方法、视频 - 文本方法、图片编辑、自监督和基于图形的方法。对 2016 年至 2022 年在 8 个机器学习领域的顶级学术会议上发表的研究论文进行了总结,也纳入了一些与所述搜索标准不匹配的相关论文,发现该领域的发表论文数量显著增加,并凸显了研究空白和潜在的研究方向。据我们所知,这是首个系统地从 “跨模态生成” 的视角来审视文本到图像生成的综述。
Jan, 2024
本文主要介绍了一种将人名加入生成文本的新方法,通过使用 OCR 识别图像中的文字并 fine-tuning 预训练模型,我们的方法在生成文本的时候自然地加入了人名信息。为了达到这个目的,我们修改了之前的多模态框架,接受来自任意数量的辅助分类器提供的相关信息。同时,我们创建了一个新的图像 - 标题数据集,名为 PAC,这个数据集包含了一些知名人物的图像和对这些图像的描述,这些描述中包含了人名。
Jul, 2022
通过多透视的分析,该研究综述了视觉文本处理领域的最新进展,从文本图像增强和恢复到文本图像操作的层次性分类,再到不同学习范式。同时,讨论了如何将特定的文本特征,如结构、笔画、语义、风格和空间背景,无缝地整合到各种任务中,并在几个广泛使用的数据集上对方法进行了测试和评估。最后,确定了未来研究的主要挑战和潜在途径,旨在确立该综述作为一个基础资源,促进视觉文本处理领域的持续探索和创新。
Feb, 2024
通过调研文献并分析各项研究方法,该篇论文综述了文本到图像和文本到视频 AI 生成的前沿方法,包括数据预处理技术、神经网络类型以及评估指标。此外,论文还讨论了文本到图像和文本到视频 AI 生成的挑战、限制以及未来研究方向。总体而言,这些模型在视频制作、内容创作和数字营销等广泛应用领域具有巨大潜力。
Nov, 2023
该研究提出了一个统一框架,通过相同的语言建模目标,在单个体系结构中学习不同的任务,实现视频图像理解、语言推理和标签生成等领域的应用。通过在多个基准测试中的表现,这种生成方法(在单个统一的体系结构下)显示出了与最先进的特定任务模型相当的性能,并且还显示了更好的推广能力和单个任务模型相似的多任务学习能力。
Feb, 2021