大型语言模型辅助的可视分析:机遇与挑战
提出了LLMMaps作为一种新的可视化技术来评估大型语言模型的性能,可以支持分层评估, 来更好地评估LLM的风险并引导未来的发展。LLMMaps可以将Q&A数据集以及LLM响应转换为内部知识结构进行详细分析,并允许多个LLM进行比较。
Apr, 2023
我们的研究探索了生成式大型语言模型在通过对话界面创建和改进可视化方面的能力,发现生成式语言模型驱动的分析对话机器人在支持渐进式可视化改进方面存在不足。基于这些发现,我们开发了AI Threads,一个多线程的分析对话机器人,能够主动管理对话上下文并提高其输出的效果。通过众包研究(n=40)和专家分析师的深入访谈(n=10),我们评估了其可用性。我们还在生成式语言模型的训练语料库之外的数据集上展示了AI Threads的能力,从而展示了生成式语言模型的潜力,同时也揭示了未来研究的挑战和有成果的方向。
Nov, 2023
通过我们提出的评估方法和平台 EvaLLM,我们解决并评估了大型语言模型生成可视化的问题,并通过 GPT3.5-turbo with Code Interpreter 和 Llama2-70-b 模型的两个案例研究展示了相关结果。
Feb, 2024
这篇论文介绍了一种新颖的交互式工具,LLM比较器,用于分析自动侧边评估结果,解决大规模语言模型评估中的可扩展性和解释性挑战。通过与研究人员和工程师合作,我们迭代设计和开发了这一工具,并进行了一项观察研究,针对定期评估模型的参与者。
Feb, 2024
使用大型语言模型进行自然语言到可视化的转换任务,在分析如何将结构化表格数据转化为LLM所需的顺序文本提示时,发现将结构化表格数据转化为程序是有效的,并且在制定提示时考虑表格模式是必要的。同时,通过对比实验发现,LLM在NL2Vis任务中优于基线方法,并且推理模型在提供少量示范的情况下通过上下文学习能够进一步改善性能,时而甚至超过微调模型。最后,分析LLM在NL2Vis任务中失败的情况,并提出了循环更新的策略,通过链式思维、角色扮演和代码解释等方法来迭代更新结果,实验证实了这种迭代更新的有效性,具有广阔的未来研究潜力。
Apr, 2024
NL2VIS研究领域涉及将自然语言查询解释并将其转化为准确代表底层数据的可视化,为非专家用户大大便利了数据探索;本文提出了V-RECS,首个具有解释、标题和进一步数据探索建议的基于LLM的视觉推荐系统,通过细化小型模型的方法解决了强大LLMs的计算、可控性和成本问题,使用Chain-of-Thoughts(CoT)技术来生成有洞察力的可视化叙述来辅助LLM的指导,V-RECS在性能上与GPT-4相当,但成本更低,该研究通过发布V-RECS帮助可视化设计师整个可视化生成过程。
Jun, 2024
提出了一种名为VisEval的新的NL2VIS基准,该基准通过引入高质量大规模数据集并倡导综合自动化评估方法,揭示了目前研究中普遍存在的挑战并为未来的进一步发展提供了重要的见解。
Jul, 2024
本研究评估了四种公开可用的大型语言模型(GPT-4、Gemini-Pro、Llama3和Mixtral)的能力,探究它们在存在不确定性的情况下理解话语、识别相关数据背景和可视化任务的能力。研究结果表明,尽管语言模型对话语中的不确定性较为敏感,但它们能够提取相关数据背景,不过在推断可视化任务方面存在困难。基于这些结果,我们指出了未来在利用语言模型生成可视化方面的研究方向。
Jul, 2024
利用可视化素养的概念评估多模式大语言模型(MLLMs)的性能,研究表明MLLMs在可视化素养方面具有竞争力,能够优于人类在识别相关性、聚类和层次结构等任务中。
Jun, 2024
本研究解决了大型语言模型(LLMs)在解读各种数据可视化(如时间序列、直方图等)中的能力不足的问题。通过构建一个新颖的合成数据集并使用多模态文本提示评估多种先进模型,研究展示了LLMs识别和理解视觉数据的能力,揭示出其在不同视觉数据解释方面的优缺点,从而为未来的研究提供了基础基准。
Sep, 2024