MatPlotAgent:基于 LLM 的科学数据可视化方法和评估
大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力,显示出商业 LLMs 和开源竞争对手之间的性能差距。
Aug, 2023
LLM4Vis 是一个基于 ChatGPT 的提示方法,可执行可视化推荐,并使用极少数量的演示示例返回类人的解释,通过考虑先前生成的解释和基于模板的提示进行迭代性微调生成的解释。在 VizML 数据集上的评估表明,LLM4Vis 在少量示例和零示例设置中优于或类似于 Random Forest、Decision Tree 和 MLP 等监督学习模型,并通过定性评估显示 LLM4Vis 生成的解释的有效性。
Oct, 2023
利用大型语言模型的自动化系统,提出了一种可视化方法,用于探索 LLMAS 中的详细状态和代理行为,在时间序列上构建了整个结构的分层摘要并挖掘了代理行为之间的因果关系,开发了 AgentLens 可视分析系统以揭示 LLMAS 的演化并支持用户交互式探索代理行为的细节和原因。
Feb, 2024
这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架,通过游戏和博弈论场景来创建不同的测试环境,并利用概率图模型方法增强模型的导航能力,最终量化评估了七种不同大型语言模型的能力,发现最强模型 GPT-4 和最弱模型 Llama-2-70B 之间存在三倍的能力差距,同时证实了概率图模型增强了所有模型的能力,平均提高了 50%。
Nov, 2023
我们提出了一种基于 LLM 的研究代理的研究,该代理可以在机器学习工程问题中执行实验循环,并且我们开发了 MLAgentBench 来评估这些代理的性能与效率。
Oct, 2023
通过我们提出的评估方法和平台 EvaLLM,我们解决并评估了大型语言模型生成可视化的问题,并通过 GPT3.5-turbo with Code Interpreter 和 Llama2-70-b 模型的两个案例研究展示了相关结果。
Feb, 2024
使用大型语言模型(LLMs)作为自主代理,简化多样真实世界图的学习过程,响应用户请求并生成数据自动解决方案,涉及图数据处理、自动机器学习配置、搜索架构和超参数微调。提出的 Auto$^2$Graph 方法在不同数据集和学习任务上展现可比较的性能,代理产生类似人类决策。
Sep, 2023
我们的研究探索了生成式大型语言模型在通过对话界面创建和改进可视化方面的能力,发现生成式语言模型驱动的分析对话机器人在支持渐进式可视化改进方面存在不足。基于这些发现,我们开发了 AI Threads,一个多线程的分析对话机器人,能够主动管理对话上下文并提高其输出的效果。通过众包研究(n=40)和专家分析师的深入访谈(n=10),我们评估了其可用性。我们还在生成式语言模型的训练语料库之外的数据集上展示了 AI Threads 的能力,从而展示了生成式语言模型的潜力,同时也揭示了未来研究的挑战和有成果的方向。
Nov, 2023
通过在 LLMs 中引入可扩展的工具集,将研究重点从追求全知问题解决者转变为专业的工具使用者,以增加科学推理对于 LLMs 的可行性,并构建了一个名为 MathFunc 的涵盖了超过 30,000 个样本和约 6,000 个工具的工具增强训练语料库,在此基础上开发了 SciAgent 用于科学问题的工具检索、理解和使用,并构建了跨越五个科学领域的基准测试 SciToolBench 来评估 LLMs 在工具协助下的能力,通过 SciToolBench 上的大量实验证实了 SciAgent 的有效性,特别是 SciAgent-Mistral-7B 在绝对准确率上比同样大小的其他 LLMs 高出 13% 以上,此外,SciAgent-DeepMath-7B 的性能远远优于 ChatGPT。
Feb, 2024
介绍了一种新的框架 AgentEval,用于验证大型语言模型(LLM)驱动应用程序的实用性,并提供一套与特定应用程序目标相符的评估标准,以全面评估其实用性。
Feb, 2024