解码图像：释放大型语言模型

Aug, 2023

Decoding Imagery: Unleashing Large Language Models

David Noever, Samantha Elizabeth Miller Noever

TL;DR通过一项挑战 - 回应研究，我们对 Google Bard 进行了 64 个视觉挑战，旨在探查多模式大型语言模型（LLMs）的能力。我们的发现表明，Bard 在确定图像中的线索时更倾向于根据直觉做出猜测，并且不依赖于 OCR 库而使用类似 Google Lens 和 Visual API 的深度学习模型来识别复杂图像中的文本。然而，Bard 无法重新绘制 ASCII 艺术或解析简单的井字棋网格，这项研究为多模式 LLMs 的当前能力和改进方向提供了实验性见解。

Abstract

In a challenge-response study, we subjected google bard to 64 visual challenges designed to probe multimodal large language models (LLMs). The challenges spanned diverse categories, including "Visual Situational

google bard multimodal large language models visual challenges educate guesses improvement

发现论文，激发创造

Google 巴德的视觉理解有多好？对开放挑战的实证研究

Google's Bard 的视觉输入能力在理解和解释图像的研究中表现不佳，这为未来的发展桥接了视觉理解的重要差距，而沟通 AI 的领域中的竞争对手 ChatGPT 可在文本输入方面处理得更好。

Jul, 2023

Google 巴德对抗图像攻击的鲁棒性

通过对 Google 的 Bard 进行攻击，该研究揭示了商业多模态大型语言模型（MLLMs）的脆弱性，发现了两种 Bard 的防御机制并提出了相应的攻击方法，从而深入了解了 MLLMs 的鲁棒性，并促进未来研究的发展。

Sep, 2023

Tiny LVLM-eHub: 与 Bard 的早期多模态实验

本文通过提出轻量级的 LVLM-eHub 变体 Tiny LVLM-eHub，对 LVLMs 的多模态能力进行了早期和全面评估，特别关注了 Bard，通过定量评估 42 个标准文本相关视觉基准的视觉感知、视觉知识获取、视觉推理、视觉常识、物体幻象和具身智能等六个类别的多模态功能，并通过 ChatGPT Ensemble Evaluation (CEE) 对 LVLMs 的预测进行了深入分析，证明了 Bard 在大多数多模态能力上优于以前的 LVLMs，但在物体幻象方面仍然容易受到影响，Tiny LVLM-eHub 为各种 LVLMs 提供了基准评估，并鼓励旨在推进多模态技术的创新策略。

Aug, 2023

大型语言模型对计算机教育产生了重大影响，研究表明，这些模型能够比学生提供更好的解释，回答多项选择题高于平均水平，并生成能够通过入门课程中的自动化测试的代码。然而，仅仅转向视觉编程问题可能不足以解决在生成 AI 时代的学术诚信问题。

Nov, 2023

Bard 和 ChatGPT 在十种阿拉伯语方言机器翻译中的评估

综述了大型语言模型对阿拉伯语方言的机器翻译效能以及在翻译任务中与人类指令的对齐能力，发现大型语言模型在处理某些阿拉伯语方言时可能面临挑战，尤其是针对缺乏公开数据的阿尔及利亚和毛里塔尼亚方言，但对更普遍的方言表现令人满意，虽然偶尔落后于像 Google 翻译这样的商业系统。总体而言，现有的大型语言模型在包容性方面仍有待改进，仅具有有限的能力来满足不同社区之间的语言和文化复杂性需求。

Aug, 2023

语言空间中的图像：探索大语言模型在视觉和语言任务中的适用性

本篇文章研究了如何通过联合对话模型和语言模型使其能够有效地处理视觉信息，解决了在有限样本时视觉 - 语言任务的问题，使输出更易于解释。

May, 2023

大型视觉 - 语言模型中的复合推理引导

使用一种新颖的生成方法，我们对大型视觉语言模型（如 GPT-4）进行控制，以描述图像并进行组合推理，在 Winoground 数据集上优于其他嵌入式方法，并在最佳描述的增强下获得最高 10% 的准确率改进。

Jan, 2024

大型语言模型为文本丰富的 VQA 带来的优势

基于文本识别的图像视觉问答是一个跨模态任务，需要图像理解和文本识别。本文研究了基于 LLM 方法在解决此问题时的优势和瓶颈，并通过整合 OCR 模块和 MLLM 发现多数 MLLM 可以理解 OCR 信息，为训练保留 LLM 能力提供了启示。

Nov, 2023

迷失在翻译中：当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析

通过对多模态机制的详细分析，揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性，并引入了一种名为 “Vision Description Prompting” 的方法，有效提高了具有挑战性的视觉相关任务的性能。

Oct, 2023

大型语言模型作为一致的故事可视化器

StoryGPT-V 使用潜在扩散和大语言模型的优点，生成具有一致且高质量角色的图像，通过解决指代消解和对上下文的理解来提高生成准确性和忠实度。模型在视觉故事可视化上表现优异，并具有较低的内存消耗。

Dec, 2023