DesignProbe: 多模式大语言模型的平面设计基准
DesignQA 是一个用于评估多模式大型语言模型(MLLMs)在理解和应用技术文档中的工程需求方面的能力的新型基准。它结合了来自 Formula SAE 学生竞赛的多模态数据,包括文本设计要求、CAD 图像和工程图纸。通过评估最先进的模型如 GPT4 和 LLaVA,研究结果发现 MLLMs 在解释复杂工程文档方面存在差距,尤其是在准确提取和应用详细需求到工程设计方面。该基准为未来的 AI 支持工程设计过程的进展奠定了基础。
Apr, 2024
本论文研究利用自然语言处理和机器学习技术进行概念生成,比较生成方案和众包解决方案的异同,结论表明,利用 LLM 技术生成的方案平均可行性和实用性更高,而众包解决方案更具新颖性。
May, 2023
通过调整参数和不同的提示工程技术,探索大型语言模型在生成多样化设计方案方面的有效性,并通过比较多个参数和提示工程方法的组合,以及使用相同多样性指标与人工设计方案进行比较,结果表明人类生成的解决方案在所有设计主题上始终有更高的多样性评分。
May, 2024
我们提出了一个名为 RTLLM 的开源基准,用于生成具有自然语言指令的设计 RTL,并使用一个名为 self-planning 的易于使用但效果显著的提示工程技术来提高 GPT-3.5 在我们提出的基准中的性能。
Aug, 2023
本文介绍了一种新的框架,用于探究和提升视觉语言模型的关系、组合和上下文理解。我们提出了一个基准数据集来检测内容理解的三个方面。我们实验了 5 种流行的模型,并发现它们大多数难以展示出概念理解。然而,我们发现交叉注意力可以帮助学习概念理解,并提出了一种新的微调技术,以奖励我们提出的三个概念理解措施。我们希望这些基准测试可以帮助社区评估和改进大型视觉语言模型的概念理解能力。
Apr, 2023
本文介绍了第一代 MLLM 评估基准 - MME 模型,并对 10 种先进的 MLLM 模型进行了全面评估,同时对模型优化的潜在方向进行了研究。
Jun, 2023
通过使用全面的评估框架 MM-BigBench,本文综合评估了 20 个语言模型(包括 14 个多模态大型语言模型)在 14 个多模态数据集上的性能,并通过引入新的指标,对不同模型和指令之间的性能以及适应性进行了评估。
Oct, 2023
我们提出了 SEED-Bench-2,这是一个综合评估多模态大型语言模型能力的基准测试,并通过对 23 个主要开源多模态大型语言模型的性能评估,揭示了现有模型的局限性。
Nov, 2023
Multi 是一种多模态大型语言模型(MLLMs)的先进基准测试,提供了综合数据集,用于评估 MLLMs 在理解复杂图表、科学问题等方面的表现,并挑战包括公式推导、图像细节分析和跨模态推理在内的多样任务。评估结果表明,MLLMs 在 Multi 上取得了显著的进展,与其他 MLLMs 相比,GPT-4V 的准确率达到了 63.7%,Multi 不仅是一个强大的评估平台,也为专家级 AI 的发展铺平了道路。
Feb, 2024