影像与信息
本文阐述了如何使用视觉线索(Visual Clues)桥接预训练的视觉基础模型和语言模型,无需任何额外的跨模态训练,从而可以获得图像的详细信息和语义表示,并通过定量和定性的度量评估了生成的描述的质量,结果表明该结构化语义表示方法具有有效性。
Jun, 2022
该论文提出了一种利用海量知识库和预训练语言模型的模型,通过将图像转换为纯文本,以进行知识检索和自然语言生成问答,其中使用的框架为 TRiG 框架,并取得了比所有最先进的监督方法多至少 11.1%的绝对优势。
Jan, 2022
本研究介绍了图像的特异性概念,提出了自动化和人工评估测量图像特异性的两种机制,分析了图像内容和属性对其特异性的影响,通过训练模型自动预测图像的特异性,并展示其在文本图像检索中的应用。
Feb, 2015
本文评估常见反向图像搜索引擎在发现技术文档中抽象图像方面的表现,发现自然图像上,Yandex 表现更好,在搜索包含特定图像的页面时,Google 和 Yandex 的精度得分约为 0.8191 至 0.8297,且在这两种情况下,Google 和 Yandex 在自然图像上的表现优于抽象图像,这些结果影响着使用常见网络搜索引擎搜索使用抽象图像的技术文档的人们
Nov, 2022
使用计算机视觉方法从低曝光但高品质图片池中展现出美丽的照片。我们对 Flickr 上的大型数据集进行测试,通过聚集大量众包美学得分的基本事实,显示我们的方法检索到的照片的中位数感知美丽得分等同于最受欢迎的照片,平均得分仅低 1.5%。
May, 2015
本研究提出了一种交互式机器教学算法,该算法通过选择学生观察的有代表性的图片来教授具有挑战性的视觉概念,以提高机器教学和图像分类的效率。利用该算法,我们可以基于学生的正确和错误答案,概率地模拟学生的知识水平和进展情况,从而在多个真实世界的数据集上获得更好的结果。
Apr, 2015
本研究提出一种结合图像分析方法和神经语言模型的方法,结合密集字幕技术和一组筛选器生成网络研讨会图像上下文信息,以生成高度可解释且聚焦于相关信息的描述,以应对视觉障碍个体面临的信息获取问题。
Feb, 2022