LLVMs4Protest: 利用大型语言和视觉模型解读新闻中的抗议事件

Nov, 2023

LLVMs4Protest: 利用大型语言和视觉模型解读新闻中的抗议事件

LLVMs4Protest: Harnessing the Power of Large Language and Vision Models for Deciphering Protests in the News

Yongjun Zhang

TL;DR大型语言和视觉模型已经改变了社会运动学者如何识别抗议活动并从多模态数据中提取关键的抗议属性。本文描述了我们如何通过对大规模预训练的转换器模型（包括 longformer 和 swin-transformer v2）进行微调，使用文本和图像数据来推断新闻文章中的潜在抗议活动。我们为下游任务使用 Dynamic of Collective Action (DoCA) Corpus 训练了 longformer 模型，并将纽约时报文章与 DoCA 数据库匹配，以获取训练数据集。我们还使用了 UCLA-protest 图像数据对 swin-transformer v2 模型进行了训练。我们通过 https://github.com/Joshzyj/llvms4protest 发布了这篇简短的技术报告，供对使用 LLVMs 来推断文本和图像数据中的抗议活动感兴趣的社会运动学者使用。

Abstract

Large language and vision models have transformed how social movements scholars identify protest and extract key protest attributes from multi-modal data such as texts, images, and videos. This article documents

language and vision models protest attributes longformer swin-transformer v2 llvms

发现论文，激发创造

社交媒体图像的抗议活动检测和暴力评估

开发了一种新的视觉模型，该模型能够通过视觉属性识别抗议者、描述他们的活动并估计在图像中所表现的暴力水平。通过分析从 2013 年到 2017 年的地理标记推文以及它们的图像，采用多任务卷积神经网络自动分类出图像中的抗议者，并预测视觉属性、感知的暴力和展示的情绪，并发布了包含 40,764 张图像的 UCLA 抗议图像数据集及相关注释。

Sep, 2017

利用大规模视觉语言模型进行合成图像检测

利用先进的视觉语言模型（VLMs）对合成图像进行识别的效果进行了研究，并通过调整最先进的图像字幕模型，利用大型 VLMs 的强大理解能力区分真实图像和扩散基模型生成的合成图像。

Apr, 2024

大规模视觉语言模型中的多模态违法言论检测与纠正

本研究探讨了使用视觉语言模型进行仇恨表情包检测和修正任务的能力，并通过实证实验证明了预训练的 LLaVA 模型在这些任务中的有效性和讨论了其优缺点。

Nov, 2023

基于深度学习的抗议活动多标签图像分类

利用深度学习技术分析社交媒体数据来检测社会动荡，并通过地图可视化展示全国各地的抗议行为，以加强对城市化地区重要社会问题的理解。

Jan, 2023

评估基于生成式的大型多模态模型与基于微调的视觉转换器在基于图像的安全应用中的功效

研究了用于解决关键安全挑战的提示引擎 Gemini-pro 多模态模型和精调 ViT 模型的适用性和效果，发现 Gemini-pro 在准确性和可靠性方面存在明显差异，而精调的 ViT 模型在两个任务上表现出色，达到近乎完美的性能。

Mar, 2024

使用词嵌入分析抗议新闻

CLEF 2019 的两个 ProtestNews 任务旨在对抗议和非抗议相关的新闻文章和句子进行二元分类；通过用 ELMo 和 DistilBERT 替换现有的词嵌入，DistilBERT 在不改变原始模型架构的情况下，相对于 FastText 实现时，在 F1 得分方面的表现提高到了 0.66，并在两个任务和模型中都优于 ELMo。

Mar, 2022

轮询潜在观点：使用变换器语言模型的计算机社会语言学方法

使用 Transformer Language Models 等方法对 Yelp 评论进行语言行为学习，并利用 prompt-based queries 生成合成文本以分析特定观点，证明即使在缺乏特定关键词的情况下，这些模型也能准确产生具有正确情感的大量文本。

Apr, 2022

利用现实世界和生成的新闻文章语料库量化生成式媒体偏见

通过建立新的数据集并使用九个大语言模型，本研究研究了人工撰写文章和机器生成文章之间的性质变化以及政治偏见的检测，结果显示基准模型和经过调整的模型之间存在显著差异，并且大语言模型在分类器角色中也显示出政治偏见，为进一步研究大语言模型政治偏见及其影响提供了一个基础。

Jun, 2024

冻结大型语言模型在视觉信号理解中的应用

我们研究了大型语言模型（LLM）在没有对多模态数据集进行微调的情况下，直接理解视觉信号的潜力。我们提出了一种视觉到语言的分词器（V2T Tokenizer），通过编码器 - 解码器、LLM 词汇表和 CLIP 模型将图像转换成 “外语”。通过这种创新的图像编码方式，LLM 不仅具备了视觉理解能力，还能以自回归方式进行图像去噪和恢复，关键是不需要任何微调。我们进行了严格的实验证实了我们的方法，包括图像识别、图像字幕、视觉问题回答等理解任务，以及修复任务，如修复、扩展、去模糊和位移复原。

Mar, 2024

探索大型语言模型在识别误导性新闻标题中的潜力

利用大型语言模型（LLMs），本文研究了识别误导性与非误导性新闻标题的效果。研究发现模型性能存在显著差异，ChatGPT-4 在一致标注者就误导性标题达成一致意见的情况下表现出更准确的结果。文章强调了人本评估在开发 LLMs 中的重要性，旨在将技术能力与细腻的人类判断力相结合。研究结果对 AI 伦理问题具有借鉴意义，强调了在技术先进的同时，还需要考虑伦理道德和人类解读的微妙性。

May, 2024