Google 巴德的视觉理解有多好?对开放挑战的实证研究
通过一项挑战 - 回应研究,我们对 Google Bard 进行了 64 个视觉挑战,旨在探查多模式大型语言模型(LLMs)的能力。我们的发现表明,Bard 在确定图像中的线索时更倾向于根据直觉做出猜测,并且不依赖于 OCR 库而使用类似 Google Lens 和 Visual API 的深度学习模型来识别复杂图像中的文本。然而,Bard 无法重新绘制 ASCII 艺术或解析简单的井字棋网格,这项研究为多模式 LLMs 的当前能力和改进方向提供了实验性见解。
Aug, 2023
通过对 Google 的 Bard 进行攻击,该研究揭示了商业多模态大型语言模型(MLLMs)的脆弱性,发现了两种 Bard 的防御机制并提出了相应的攻击方法,从而深入了解了 MLLMs 的鲁棒性,并促进未来研究的发展。
Sep, 2023
ChatGPT-4 Vision 在巴西 2021 年本科国家考试中展现了优秀的视觉能力,但在问题解释、逻辑推理和视觉敏锐度方面遇到了困难,提示未来考试需要改进问题设计。研究结果表明,虽然 ChatGPT-4 Vision 在多模态学术评估中表现出潜力,但人类监督仍然至关重要,以验证模型的准确性并确保高风险教育考试的公平性。
Jun, 2024
本文通过提出轻量级的 LVLM-eHub 变体 Tiny LVLM-eHub,对 LVLMs 的多模态能力进行了早期和全面评估,特别关注了 Bard,通过定量评估 42 个标准文本相关视觉基准的视觉感知、视觉知识获取、视觉推理、视觉常识、物体幻象和具身智能等六个类别的多模态功能,并通过 ChatGPT Ensemble Evaluation (CEE) 对 LVLMs 的预测进行了深入分析,证明了 Bard 在大多数多模态能力上优于以前的 LVLMs,但在物体幻象方面仍然容易受到影响,Tiny LVLM-eHub 为各种 LVLMs 提供了基准评估,并鼓励旨在推进多模态技术的创新策略。
Aug, 2023
大型语言模型对计算机教育产生了重大影响,研究表明,这些模型能够比学生提供更好的解释,回答多项选择题高于平均水平,并生成能够通过入门课程中的自动化测试的代码。然而,仅仅转向视觉编程问题可能不足以解决在生成 AI 时代的学术诚信问题。
Nov, 2023
对基于大型语言模型的三个聊天机器人(ChatGPT-3.5、ChatGPT-4 和 Google Bard)进行了比较,重点关注它们解决数学和逻辑问题的能力,并通过一系列测试发现对于简单的算术、代数表达式和基本的逻辑谜题,聊天机器人可能会提供准确的解决方案,但对于更复杂的数学问题或高级逻辑任务,它们的答案可能不可靠。ChatGPT-4 在两组问题中的表现均优于 ChatGPT-3.5,而 Bard 在 Set B 中表现最好。
May, 2023
本文测试了 ChatGPT 和 Bard AI 技术在评估和教学领域的应用。使用 ICC 构建了性能指标来衡量它们的可靠性,结果显示,这两款 LLM 工具在感知和评估写作提示复杂性方面相对人类评分标准具有较低的一致性。
Apr, 2023
综述了大型语言模型对阿拉伯语方言的机器翻译效能以及在翻译任务中与人类指令的对齐能力,发现大型语言模型在处理某些阿拉伯语方言时可能面临挑战,尤其是针对缺乏公开数据的阿尔及利亚和毛里塔尼亚方言,但对更普遍的方言表现令人满意,虽然偶尔落后于像 Google 翻译这样的商业系统。总体而言,现有的大型语言模型在包容性方面仍有待改进,仅具有有限的能力来满足不同社区之间的语言和文化复杂性需求。
Aug, 2023
通过创建和描述 ChatGPT 和 Bard 响应的数据集,我们发现在美国高度极化的话题中,ChatGPT 和 Bard 倾向于左倾,Bard 更可能围绕极化话题提供响应,且对争议话题的限制较少,倾向于提供全面且更像人类的回答。利益相关者可以利用我们的发现来减少自然语言处理模型中的错误或极化响应。
Jul, 2023
本文介绍了视觉对话任务,即通过图像、对话历史和问题,要求 AI 智能体以自然、对话式的语言与人类进行有意义的对话,并率先提出了一种基于视觉的通用测试方法以及一种新颖的二人聊天数据收集协议。在此基础上,利用 Latre Fusion、Hierarchical Recurrent Encoder 和 Memory Network 等三个编码器和两个解码器(生成式和判别式),超越了许多复杂的基准线,并采用了基于检索的评估协议,Quantify 了机器和人类在视觉对话任务上的性能差距,进而演示了第一款 “视觉聊天机器人”。
Nov, 2016