利用网络视觉资源增强教科书以促进学习
增强视觉模型对包含大量文本信息的图像进行理解和学习的能力,通过数据预处理、微调和模型评估等方法,在集成 CLIP 和文本嵌入模型的视觉聊天应用中取得了 96.71% 的精度,旨在提升复杂视觉文本数据的跨模态人工智能理解能力。
May, 2024
该论文提出了一种基于大型视觉语言模型 CLIP 的 fine-tuning 策略,用于从文本中评分文本的视觉性,并对其进行分类,得到了比其他方法更好的结果,并展示了文本视觉性对于文本生成任务的重要性。
May, 2023
本研究针对视觉识别技术中的特征表示、学习算法和标记的训练数据进行了探究,提出了一种基于网络监督的自动图像数据生成方法,以实现对大量视觉概念的高效训练和识别。在 Pascal VOC 2007 数据集上对该方法进行了测试,并取得了明显的优越性能。
Jun, 2019
运用预训练的大规模语言 - 图像模型,本文尝试解决可视化分析中的两个问题:大规模图像数据集的高效探索与潜在数据偏差的发现以及图像标题的评估与生成过程的引导。通过分析从语言 - 图像模型自动生成的图像标题,我们能深入了解视觉内容的语义基础,并发现数据偏差。同时,通过展示视觉内容与文本标题之间的关联,揭示了预训练的语言 - 图像模型在标题生成能力上的不足,并提出了一种交互界面来引导标题生成。通过具体案例研究和大规模图像数据集的领域实践者验证了该系统的有效性。
Nov, 2023
本文探讨了将视觉信息与文本表示相结合的模型,通过 comprehensive ablation studies,我们提出了一种简单但表现突出的架构,相对于其他的 multimodal approaches,在若干基准测试中取得了更好的成绩。同时在使用数量级更少的数据时,也改进了与图像相关的文本数据集的最新成果。
May, 2017
论文提出一种新的方法,使用图像标题和来自图像搜索引擎的点击数据来学习文本 - 视觉嵌入,并通过建模嵌入的积极感知提出新的三元损失函数,以及引入一种新的基于小批次的难例负采样方法来提高学习过程的数据效率,实验结果表明,该方法的表现优于现有方法,并且对于现实世界的文本到视觉检索也十分有效。
May, 2019
该研究探索了一个新的问题,即学习对不同长度和数量的图像文本具有强鲁棒性的自我监督视觉语言表示法,其介绍了一个包括超过 31M 篇文章,22M 张图片和 1M 个视频的大规模多模态数据集,并表明最先进的图像文本对齐方法不能很好地处理带有多张图像和更长篇幅的叙述,且还提出了一种直观的基线方法,在 GoodNews 数据集上零样本图像集检索表现比这些方法高出 10%。
Jul, 2022
本研究探索了将视觉知识整合到语言模型中以填补现有文本信息中缺失的相关性和物体属性信息的空白。研究发现,视觉知识传递可以在低资源和完全监督设置下均有效提高预先训练的语言模型在需要视觉知识的下游任务中的性能。
Mar, 2022
本文探讨了如何从文本数据中学习计算机视觉领域所需的高层次技能,并将其转移到视觉任务中,同时提出探究对比模型嵌入空间中不同模态的系统差异,进一步理解和缓解这种关注的策略。实践证明,我们使用仅文本训练数据在图像标注、视觉蕴含、视觉问题回答和视觉新闻等四个代表性任务上建立的模型,性能表现接近仅使用图像训练数据建立的模型,尤其是针对图像标注和视觉蕴含任务的文本训练数据,有望超过 9 个百分点的提升。同时,我们还展示了多种样式的图像标注模型,这些模型使用的不是图像数据和人工策划的语言数据,而是来自于图书、网络或语言模型可用的文本数据。
Nov, 2022