图像作为数据:政治科学自动化视觉内容分析
该研究旨在提高政治科学领域利用 Gemini 进行图像内容分析的可行性认识。通过对一个包含 688 幅图像的语料库进行回顾性分析,我们发现 Gemini 在执行物体检测方面非常准确,而物体检测是政治科学图像分析中最常见和基础的任务。同样重要的是,我们展示了 Gemini 的易用性,整个命令只需一个自然语言提示,运行速度快,能满足大多数研究者的时间预算,且免费使用,不需要任何专门的硬件。此外,我们还说明了政治科学家如何利用 Gemini 进行其他图像理解任务,包括人脸识别、情感分析和标题生成。研究结果表明,Gemini 和其他类似的大语言模型有潜力在政治科学和社会科学等领域大幅刺激和加速图像研究。
Feb, 2024
本文介绍了如何利用自然语言处理技术(如基于机器学习或神经网络的技术)来发现不同平台上的政治内容,并使用三组数据集对依赖于字典、监督学习或神经网络的三组检测技术的表现进行了系统比较。我们还对数据的不同预处理模式的影响进行了检验,结果表明,在处理较少噪声的数据时,使用基于神经网络和机器学习的模型效果最佳,而在处理噪声较多的数据时,使用基于字典的模型效果更为稳健。
Jul, 2022
运用预训练的大规模语言 - 图像模型,本文尝试解决可视化分析中的两个问题:大规模图像数据集的高效探索与潜在数据偏差的发现以及图像标题的评估与生成过程的引导。通过分析从语言 - 图像模型自动生成的图像标题,我们能深入了解视觉内容的语义基础,并发现数据偏差。同时,通过展示视觉内容与文本标题之间的关联,揭示了预训练的语言 - 图像模型在标题生成能力上的不足,并提出了一种交互界面来引导标题生成。通过具体案例研究和大规模图像数据集的领域实践者验证了该系统的有效性。
Nov, 2023
自动化人群监测在计算机视觉领域引起了极大的关注,在过去十年里取得了显著发展。本文探讨了视觉人群分析的六个主要领域,并强调了每个领域的关键进展,同时揭示了未来需要解决的关键问题。通过选择在创新性或性能方面有重大贡献的重要工作,本文以更全面的方式呈现了当前最先进技术的先进性。
Aug, 2023
本研究针对视觉识别技术中的特征表示、学习算法和标记的训练数据进行了探究,提出了一种基于网络监督的自动图像数据生成方法,以实现对大量视觉概念的高效训练和识别。在 Pascal VOC 2007 数据集上对该方法进行了测试,并取得了明显的优越性能。
Jun, 2019
本文解释了在线多媒体内容分析工具的能力和局限性,并强调了在不考虑其局限性的情况下大规模使用这些工具的潜在风险,重点是两种主要工具:匹配模型和预测模型。
Dec, 2021
本文提出了一种新颖的深度学习方法,适用于解决文字描述与图片内容松散相关的情况。这种方法在多任务和迁移学习中表现良好,可以有效地检测图片来源、预测热度、插图以及文章地理位置等问题。同时,研究人员构建了一个新的语料库以供研究者使用。研究表明,该方法在新闻文章的领域中具有很强的实用性。
Mar, 2016
本文采用结构化和主题内容分析研究了计算机视觉数据集的文档记录,强调了计算机视觉数据集作者重视效率、普遍性、客观性和模型工作的做法,而这些做法与社交计算实践相矛盾。研究人员提出了在数据集创建和管理过程中更好地融入这些价值观的建议。
Aug, 2021
本研究基于深度学习技术,在分析 2016 年一月份两百万张新闻照片的基础上,探索了新闻照片的出现物体、情感分析、性别表现、政治候选人形象等多个方面。该研究是首个大规模利用深度学习 API 进行新闻图片内容分析的工作。
Mar, 2016