政治科学中的语言模型：迎接视觉分析的新时代

Feb, 2024

政治科学中的语言模型：迎接视觉分析的新时代

LLMs in Political Science: Heralding a New Era of Visual Analysis

Yu Wang, Mengying Xing

TL;DR该研究旨在提高政治科学领域利用 Gemini 进行图像内容分析的可行性认识。通过对一个包含 688 幅图像的语料库进行回顾性分析，我们发现 Gemini 在执行物体检测方面非常准确，而物体检测是政治科学图像分析中最常见和基础的任务。同样重要的是，我们展示了 Gemini 的易用性，整个命令只需一个自然语言提示，运行速度快，能满足大多数研究者的时间预算，且免费使用，不需要任何专门的硬件。此外，我们还说明了政治科学家如何利用 Gemini 进行其他图像理解任务，包括人脸识别、情感分析和标题生成。研究结果表明，Gemini 和其他类似的大语言模型有潜力在政治科学和社会科学等领域大幅刺激和加速图像研究。

Abstract

Interest is increasing among political scientists in leveraging the extensive information available in images. However, the challenge of interpreting these images lies in the need for specialized knowledge in computer vision and access to specialized hardware. As a result, image analysis

image analysis gemini object detection political science language models

发现论文，激发创造

医学影像中多模态大型语言模型的实用性初探

利用 Gemini 和 GPT-4V 模型，本研究尝试基于两种模态医学图像数据进行分类、解释和分析，并发现 Gemini 在分类任务上略优于 GPT-4V，而 GPT-4V 的回答主要是泛化的。该研究为多模态大型语言模型在视网膜眼底检查和肺部 X 射线图像等医学图像分析专项任务中的分类和解释提供了潜力，并识别了早期调查研究中的关键限制。

Jun, 2024

图像作为数据：政治科学自动化视觉内容分析

本文介绍了基于计算机视觉和深度学习的自动化方法，用于分析大规模的图像数据，并说明了它们的用途和实现。进一步地讨论了这些方法和结果的验证和解释，以及它们如何对政治传播、身份与政治、发展和冲突的研究做出贡献，从而启用了一系列的大规模研究问题。

Oct, 2018

诱导政治偏见使语言模型预测党派对争议的反应

通过使用大规模语言模型（LLMs）来准确解读和预测政治偏见在社交媒体平台上充斥的政治性讨论，本研究创新性地采用了一个指导调整的 LLM，以反映一系列政治意识形态。我们提出了一个综合的分析框架，包括党派偏见差异评估和党派倾向预测，以评估模型在立场、情绪和道德基础等方面与现实政治意识形态保持一致。研究发现模型在捕捉情绪和道德细微差别方面的有效性，但在立场检测方面存在一些挑战，突显了 NLP 工具在政治敏感环境中精细化和改进的复杂性和潜力。此研究通过展示 LLMs 中细致的政治理解的可行性和重要性，特别适用于需要敏锐意识到政治偏见的应用，为该领域做出了重要贡献。

Nov, 2023

超越人类视角：大型视觉语言模型在显微镜图像分析中的作用

在这项研究中，我们对 ChatGPT、LLaVA、Gemini 和 SAM 进行了分类、分割、计数和 VQA 任务，发现 ChatGPT 和 Gemini 能够令人印象深刻地理解显微镜图像中的视觉特征，而 SAM 则在一般情况下具备分离伪影的能力，但性能还不如领域专家 - 这些模型在图像中存在的杂质、缺陷、伪影重叠和多样性的引入会给其带来困扰。

May, 2024

利用 LLMs 研究欧洲政治光谱

Instruction-finetuned Large Language Models display political leanings, influencing downstream task performance; auditing Llama Chat in the context of EU politics demonstrates its political knowledge and reasoning abilities, offering potential as data-driven conversational engines for political science research.

Mar, 2024

评估基于生成式的大型多模态模型与基于微调的视觉转换器在基于图像的安全应用中的功效

研究了用于解决关键安全挑战的提示引擎 Gemini-pro 多模态模型和精调 ViT 模型的适用性和效果，发现 Gemini-pro 在准确性和可靠性方面存在明显差异，而精调的 ViT 模型在两个任务上表现出色，达到近乎完美的性能。

Mar, 2024

视觉 ChatGPT 在遥感中的潜力

本论文研究了一种基于 GPT 框架的新型深度学习模型 Visual ChatGPT 在遥感领域图像处理中的应用，成功展示了该模型生成图像文本描述、进行边缘检测和拟合直线等的能力，但也揭示了该模型在遥感图像处理中的局限性和挑战。研究者相信该模型的应用在未来有望将遥感图像处理转变为便利与实际应用机会并存的领域。

Apr, 2023

Gemini 在医学院：探索多模态大型语言模型在医学挑战问题和幻觉上的能力

对大型语言模型在医疗保健行业的潜在价值进行了全面评估，发现 Google 的新型多模态模型 Gemini 在医学推理、幻觉检测和医学视觉问答任务中表现尚可，但在诊断准确性上低于 MedPaLM 2 和 GPT-4 等先进模型。分析结果显示 Gemini 对幻觉、过度自信和知识缺失高度敏感，需要谨慎部署。为提高性能，采用提示策略，并通过发布 Python 模块和建立医学领域 LLM 的排行榜促进未来研究与发展。

Feb, 2024

利用多模态大型语言模型在热像中检测对象：交通应用

研究表明，多模态大型语言模型（Multimodal Large Language Models，MLLMs）与热像数据的集成对提高自动驾驶系统和智能交通系统（ITS）应用的安全性和功能性构成了一个令人兴奋的机遇。该研究探讨了 MLLM 是否能够理解来自 RGB 和热像相机的复杂图像，并直接检测物体。结果表明，GPT-4 和 Gemini 在热像中检测和分类物体方面都非常有效，并且可以应用于 ITS 应用的先进成像自动化技术。

Jun, 2024

推理中的雙子座：揭示多模態大語言模型中的常識

Google 的 Gemini 模型通过对 12 个常识推理数据集的综合分析，展现出与其他语言模型和多模态语言模型相竞争的常识推理能力，揭示了当前语言模型和多模态语言模型在解决常识问题方面所面临的共同挑战，强调了提高这些模型的常识推理能力的进一步发展的需求。

Dec, 2023