DesignProbe: 多模式大语言模型的平面设计基准

Apr, 2024

DesignProbe: 多模式大语言模型的平面设计基准

DesignProbe: A Graphic Design Benchmark for Multimodal Large Language Models

Jieru Lin, Danqing Huang, Tiejun Zhao, Dechen Zhan, Chin-Yew Lin

TL;DR多模式大型语言模型 (MLLMs) 在设计方面的能力是 DesignProbe 基准测试旨在研究的重点。通过对两个级别的设计元素和整体设计进行八个任务的测试，我们发现改进提示可以提高 MLLMs 的性能，并且添加图像比添加文本更能提升性能。

Abstract

A well-executed graphic design typically achieves harmony in two levels, from the fine-grained design elements (color, font and layout) to the overall design. This complexity makes the comprehension of graphic design

graphic design multimodal large language models designprobe attribute recognition refining prompts

发现论文，激发创造

DesignQA: 用于评估大型语言模型对工程文档理解的多模态基准

DesignQA 是一个用于评估多模式大型语言模型（MLLMs）在理解和应用技术文档中的工程需求方面的能力的新型基准。它结合了来自 Formula SAE 学生竞赛的多模态数据，包括文本设计要求、CAD 图像和工程图纸。通过评估最先进的模型如 GPT4 和 LLaVA，研究结果发现 MLLMs 在解释复杂工程文档方面存在差距，尤其是在准确提取和应用详细需求到工程设计方面。该基准为未来的 AI 支持工程设计过程的进展奠定了基础。

Apr, 2024

利用大型语言模型进行概念设计生成

本论文研究利用自然语言处理和机器学习技术进行概念生成，比较生成方案和众包解决方案的异同，结论表明，利用 LLM 技术生成的方案平均可行性和实用性更高，而众包解决方案更具新颖性。

May, 2023

大型语言模型探索多样化设计解决方案的能力

通过调整参数和不同的提示工程技术，探索大型语言模型在生成多样化设计方案方面的有效性，并通过比较多个参数和提示工程方法的组合，以及使用相同多样性指标与人工设计方案进行比较，结果表明人类生成的解决方案在所有设计主题上始终有更高的多样性评分。

May, 2024

RTLLM: 基于大型语言模型的设计 RTL 生成的开源基准

我们提出了一个名为 RTLLM 的开源基准，用于生成具有自然语言指令的设计 RTL，并使用一个名为 self-planning 的易于使用但效果显著的提示工程技术来提高 GPT-3.5 在我们提出的基准中的性能。

Aug, 2023

探究大型视觉语言模型的概念理解

本文介绍了一种新的框架，用于探究和提升视觉语言模型的关系、组合和上下文理解。我们提出了一个基准数据集来检测内容理解的三个方面。我们实验了 5 种流行的模型，并发现它们大多数难以展示出概念理解。然而，我们发现交叉注意力可以帮助学习概念理解，并提出了一种新的微调技术，以奖励我们提出的三个概念理解措施。我们希望这些基准测试可以帮助社区评估和改进大型视觉语言模型的概念理解能力。

Apr, 2023

MME: 多模态大语言模型综合评估基准

本文介绍了第一代 MLLM 评估基准 - MME 模型，并对 10 种先进的 MLLM 模型进行了全面评估，同时对模型优化的潜在方向进行了研究。

Jun, 2023

MM-BigBench：评估多模态模型在多模态内容理解任务上的表现

通过使用全面的评估框架 MM-BigBench，本文综合评估了 20 个语言模型（包括 14 个多模态大型语言模型）在 14 个多模态数据集上的性能，并通过引入新的指标，对不同模型和指令之间的性能以及适应性进行了评估。

Oct, 2023

欺骗性提示对多模态语言模型的迷惑程度实证分析

通过 Quantum-Bench，我们比较了多种先进模型在对抗伪信息的能力上的表现，并提出了通过增加伪信息以增强模型韧性的建议。

Feb, 2024

SEED-Bench-2：多模态大型语言模型基准测试

我们提出了 SEED-Bench-2，这是一个综合评估多模态大型语言模型能力的基准测试，并通过对 23 个主要开源多模态大型语言模型的性能评估，揭示了现有模型的局限性。

Nov, 2023

多模态理解排行榜：文本与图像

Multi 是一种多模态大型语言模型（MLLMs）的先进基准测试，提供了综合数据集，用于评估 MLLMs 在理解复杂图表、科学问题等方面的表现，并挑战包括公式推导、图像细节分析和跨模态推理在内的多样任务。评估结果表明，MLLMs 在 Multi 上取得了显著的进展，与其他 MLLMs 相比，GPT-4V 的准确率达到了 63.7%，Multi 不仅是一个强大的评估平台，也为专家级 AI 的发展铺平了道路。

Feb, 2024