政治科学中的语言模型:迎接视觉分析的新时代
利用 Gemini 和 GPT-4V 模型,本研究尝试基于两种模态医学图像数据进行分类、解释和分析,并发现 Gemini 在分类任务上略优于 GPT-4V,而 GPT-4V 的回答主要是泛化的。该研究为多模态大型语言模型在视网膜眼底检查和肺部 X 射线图像等医学图像分析专项任务中的分类和解释提供了潜力,并识别了早期调查研究中的关键限制。
Jun, 2024
本文介绍了基于计算机视觉和深度学习的自动化方法,用于分析大规模的图像数据,并说明了它们的用途和实现。进一步地讨论了这些方法和结果的验证和解释,以及它们如何对政治传播、身份与政治、发展和冲突的研究做出贡献,从而启用了一系列的大规模研究问题。
Oct, 2018
通过使用大规模语言模型(LLMs)来准确解读和预测政治偏见在社交媒体平台上充斥的政治性讨论,本研究创新性地采用了一个指导调整的 LLM,以反映一系列政治意识形态。我们提出了一个综合的分析框架,包括党派偏见差异评估和党派倾向预测,以评估模型在立场、情绪和道德基础等方面与现实政治意识形态保持一致。研究发现模型在捕捉情绪和道德细微差别方面的有效性,但在立场检测方面存在一些挑战,突显了 NLP 工具在政治敏感环境中精细化和改进的复杂性和潜力。此研究通过展示 LLMs 中细致的政治理解的可行性和重要性,特别适用于需要敏锐意识到政治偏见的应用,为该领域做出了重要贡献。
Nov, 2023
在这项研究中,我们对 ChatGPT、LLaVA、Gemini 和 SAM 进行了分类、分割、计数和 VQA 任务,发现 ChatGPT 和 Gemini 能够令人印象深刻地理解显微镜图像中的视觉特征,而 SAM 则在一般情况下具备分离伪影的能力,但性能还不如领域专家 - 这些模型在图像中存在的杂质、缺陷、伪影重叠和多样性的引入会给其带来困扰。
May, 2024
Instruction-finetuned Large Language Models display political leanings, influencing downstream task performance; auditing Llama Chat in the context of EU politics demonstrates its political knowledge and reasoning abilities, offering potential as data-driven conversational engines for political science research.
Mar, 2024
研究了用于解决关键安全挑战的提示引擎 Gemini-pro 多模态模型和精调 ViT 模型的适用性和效果,发现 Gemini-pro 在准确性和可靠性方面存在明显差异,而精调的 ViT 模型在两个任务上表现出色,达到近乎完美的性能。
Mar, 2024
本论文研究了一种基于 GPT 框架的新型深度学习模型 Visual ChatGPT 在遥感领域图像处理中的应用,成功展示了该模型生成图像文本描述、进行边缘检测和拟合直线等的能力,但也揭示了该模型在遥感图像处理中的局限性和挑战。研究者相信该模型的应用在未来有望将遥感图像处理转变为便利与实际应用机会并存的领域。
Apr, 2023
对大型语言模型在医疗保健行业的潜在价值进行了全面评估,发现 Google 的新型多模态模型 Gemini 在医学推理、幻觉检测和医学视觉问答任务中表现尚可,但在诊断准确性上低于 MedPaLM 2 和 GPT-4 等先进模型。分析结果显示 Gemini 对幻觉、过度自信和知识缺失高度敏感,需要谨慎部署。为提高性能,采用提示策略,并通过发布 Python 模块和建立医学领域 LLM 的排行榜促进未来研究与发展。
Feb, 2024
研究表明,多模态大型语言模型(Multimodal Large Language Models,MLLMs)与热像数据的集成对提高自动驾驶系统和智能交通系统(ITS)应用的安全性和功能性构成了一个令人兴奋的机遇。该研究探讨了 MLLM 是否能够理解来自 RGB 和热像相机的复杂图像,并直接检测物体。结果表明,GPT-4 和 Gemini 在热像中检测和分类物体方面都非常有效,并且可以应用于 ITS 应用的先进成像自动化技术。
Jun, 2024
Google 的 Gemini 模型通过对 12 个常识推理数据集的综合分析,展现出与其他语言模型和多模态语言模型相竞争的常识推理能力,揭示了当前语言模型和多模态语言模型在解决常识问题方面所面临的共同挑战,强调了提高这些模型的常识推理能力的进一步发展的需求。
Dec, 2023