MatPlotAgent：基于 LLM 的科学数据可视化方法和评估

Feb, 2024

MatPlotAgent：基于 LLM 的科学数据可视化方法和评估

MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization

Zhiyu Yang, Zihan Zhou, Shuo Wang, Xin Cong, Xu Han...

TL;DR本文介绍了 MatPlotAgent，一种高效的模型无关的大型语言模型（LLM）代理框架，用于自动化科学数据可视化任务，并提出了一个使用 GPT-4V 进行自动评估的评分方法，实验结果表明 MatPlotAgent 可以提高各种 LLM 的性能。

Abstract

scientific data visualization plays a crucial role in research by enabling the direct display of complex information and assisting researchers in identifying implicit patterns. Despite its importance, the use of Large Language Models (LLMs) for →

scientific data visualization large language models matplotagent matplotbench scoring approach

发现论文，激发创造

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力，显示出商业 LLMs 和开源竞争对手之间的性能差距。

Aug, 2023

LLM4Vis：使用 ChatGPT 进行解释性可视化推荐

LLM4Vis 是一个基于 ChatGPT 的提示方法，可执行可视化推荐，并使用极少数量的演示示例返回类人的解释，通过考虑先前生成的解释和基于模板的提示进行迭代性微调生成的解释。在 VizML 数据集上的评估表明，LLM4Vis 在少量示例和零示例设置中优于或类似于 Random Forest、Decision Tree 和 MLP 等监督学习模型，并通过定性评估显示 LLM4Vis 生成的解释的有效性。

Oct, 2023

AgentLens: 基于 LLM 的自主系统中代理行为的视觉分析

利用大型语言模型的自动化系统，提出了一种可视化方法，用于探索 LLMAS 中的详细状态和代理行为，在时间序列上构建了整个结构的分层摘要并挖掘了代理行为之间的因果关系，开发了 AgentLens 可视分析系统以揭示 LLMAS 的演化并支持用户交互式探索代理行为的细节和原因。

Feb, 2024

MAgIC: 大型语言模型驱动的多智能体在认知、适应性、合理性和协作方面的基准测试

这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架，通过游戏和博弈论场景来创建不同的测试环境，并利用概率图模型方法增强模型的导航能力，最终量化评估了七种不同大型语言模型的能力，发现最强模型 GPT-4 和最弱模型 Llama-2-70B 之间存在三倍的能力差距，同时证实了概率图模型增强了所有模型的能力，平均提高了 50%。

Nov, 2023

评估大型语言模型作为人工智能研究代理 agent

我们提出了一种基于 LLM 的研究代理的研究，该代理可以在机器学习工程问题中执行实验循环，并且我们开发了 MLAgentBench 来评估这些代理的性能与效率。

Oct, 2023

Vi (E) va LLM！基于生成 AI 可视化的评估和解释概念栈

通过我们提出的评估方法和平台 EvaLLM，我们解决并评估了大型语言模型生成可视化的问题，并通过 GPT3.5-turbo with Code Interpreter 和 Llama2-70-b 模型的两个案例研究展示了相关结果。

Feb, 2024

基于 LLM 的自主代理通过图学习释放力量

使用大型语言模型（LLMs）作为自主代理，简化多样真实世界图的学习过程，响应用户请求并生成数据自动解决方案，涉及图数据处理、自动机器学习配置、搜索架构和超参数微调。提出的 Auto$^2$Graph 方法在不同数据集和学习任务上展现可比较的性能，代理产生类似人类决策。

Sep, 2023

可视化多维数据的对话式人工智能线索

我们的研究探索了生成式大型语言模型在通过对话界面创建和改进可视化方面的能力，发现生成式语言模型驱动的分析对话机器人在支持渐进式可视化改进方面存在不足。基于这些发现，我们开发了 AI Threads，一个多线程的分析对话机器人，能够主动管理对话上下文并提高其输出的效果。通过众包研究（n=40）和专家分析师的深入访谈（n=10），我们评估了其可用性。我们还在生成式语言模型的训练语料库之外的数据集上展示了 AI Threads 的能力，从而展示了生成式语言模型的潜力，同时也揭示了未来研究的挑战和有成果的方向。

Nov, 2023

SciAgent：科学推理的工具增强语言模型

通过在 LLMs 中引入可扩展的工具集，将研究重点从追求全知问题解决者转变为专业的工具使用者，以增加科学推理对于 LLMs 的可行性，并构建了一个名为 MathFunc 的涵盖了超过 30,000 个样本和约 6,000 个工具的工具增强训练语料库，在此基础上开发了 SciAgent 用于科学问题的工具检索、理解和使用，并构建了跨越五个科学领域的基准测试 SciToolBench 来评估 LLMs 在工具协助下的能力，通过 SciToolBench 上的大量实验证实了 SciAgent 的有效性，特别是 SciAgent-Mistral-7B 在绝对准确率上比同样大小的其他 LLMs 高出 13% 以上，此外，SciAgent-DeepMath-7B 的性能远远优于 ChatGPT。

Feb, 2024

迈向更好的人机协作：评估 LLM 驱动应用中的任务效用

介绍了一种新的框架 AgentEval，用于验证大型语言模型（LLM）驱动应用程序的实用性，并提供一套与特定应用程序目标相符的评估标准，以全面评估其实用性。

Feb, 2024