大语言模型时代的数据可视化基准测试:VisEval
使用大型语言模型进行自然语言到可视化的转换任务,在分析如何将结构化表格数据转化为 LLM 所需的顺序文本提示时,发现将结构化表格数据转化为程序是有效的,并且在制定提示时考虑表格模式是必要的。同时,通过对比实验发现,LLM 在 NL2Vis 任务中优于基线方法,并且推理模型在提供少量示范的情况下通过上下文学习能够进一步改善性能,时而甚至超过微调模型。最后,分析 LLM 在 NL2Vis 任务中失败的情况,并提出了循环更新的策略,通过链式思维、角色扮演和代码解释等方法来迭代更新结果,实验证实了这种迭代更新的有效性,具有广阔的未来研究潜力。
Apr, 2024
本研究介绍了 e-ViL 和 e-SNLI-VE 为可解释的视觉语言任务建立了一个统一的评估框架。该任务旨在生成自然语言解释,并涉及四个模型和三个数据集。研究人员还提出了一种新模型,该模型结合了 UNITER 和 GPT-2,对所有数据集的现有技术水平取得了很大的突破。
May, 2021
在 AI 运维领域中,对于保证信息系统有序和稳定运行,日志分析至关重要。然而,现有大语言模型在日志分析任务中的表现尚未得到充分验证。为此,我们引入了 LogEval,这是一个综合性基准套件,旨在首次评估大语言模型在不同日志分析任务中的能力。这个基准套件包括日志解析、日志异常检测、日志故障诊断和日志摘要等任务。通过对领先的大语言模型进行严格评估,我们展示了不同大语言模型技术对日志分析性能的影响,重点关注自一致性和少样本上下文学习等方面。我们还讨论了与模型量化、中英文问答评估和提示工程相关的发现。这些发现深入了解了大语言模型在多语言环境中的优势和弱点,以及不同提示策略的有效性。通过采用不同任务的各种评估方法,准确衡量了大语言模型在日志分析中的性能,确保了全面的评估。从 LogEval 评估中获得的见解揭示了大语言模型在日志分析任务中的优势和局限性,为研究人员和从业人员提供了宝贵的指导。
Jul, 2024
Prompt4Vis 是一种利用大型语言模型和上下文学习来增强从自然语言生成数据可视化查询的性能的新型框架,通过在 NVBench 数据集上进行广泛实验,明显优于最先进的 RGVisNet 约 35.9% 和 71.3%。
Jan, 2024
通过我们提出的评估方法和平台 EvaLLM,我们解决并评估了大型语言模型生成可视化的问题,并通过 GPT3.5-turbo with Code Interpreter 和 Llama2-70-b 模型的两个案例研究展示了相关结果。
Feb, 2024
我们探索了使用大型语言模型(如 BERT)作为编码器,基于序列到序列变压器的机器学习模型架构,从自然语言查询中预测可视化命令,并应用可用的 T5 序列到序列模型进行比较。
Oct, 2023
Evalverse 是一个集成多个分散评估工具为一体的新型库,通过与 Slack 等通信平台的集成,使了解人工智能知识有限的个人能够轻松请求和接收详细报告,因此,Evalverse 成为一个综合评估工具,为研究人员和从业人员提供了一个集中和易于访问的评估框架。
Apr, 2024
这篇论文提出了 SciEval 基准评估体系,以解决现有预先收集客观问题的数据泄露问题和缺乏主观问答能力评估的问题。SciEval 基于 Bloom 的认知分类学,覆盖了四个维度,系统评估科学研究能力。研究者进行了全面的实验证明,尽管 GPT-4 在与其他 LLMs 相比取得了最先进的表现,但仍有很大的改进空间,特别是在动态问题方面。数据和代码现已公开。
Aug, 2023
这篇论文介绍了一种新颖的交互式工具,LLM 比较器,用于分析自动侧边评估结果,解决大规模语言模型评估中的可扩展性和解释性挑战。通过与研究人员和工程师合作,我们迭代设计和开发了这一工具,并进行了一项观察研究,针对定期评估模型的参与者。
Feb, 2024
本文介绍了 VizNet,它是一个包含了超过 3100 万个数据集的大规模语料库,从开放数据库和在线可视化画廊中编译而来。它提供了一个必要的公共基线,用于比较可视化的设计技术,并为自动化可视化分析开发基准模型和算法。我们展示了如何从实验结果中学习知觉有效性度量,并展示了它在测试数据集上的预测能力。
May, 2019