Aug, 2023

解码图像:释放大型语言模型

TL;DR通过一项挑战 - 回应研究,我们对 Google Bard 进行了 64 个视觉挑战,旨在探查多模式大型语言模型(LLMs)的能力。我们的发现表明,Bard 在确定图像中的线索时更倾向于根据直觉做出猜测,并且不依赖于 OCR 库而使用类似 Google Lens 和 Visual API 的深度学习模型来识别复杂图像中的文本。然而,Bard 无法重新绘制 ASCII 艺术或解析简单的井字棋网格,这项研究为多模式 LLMs 的当前能力和改进方向提供了实验性见解。