可视化多维数据的对话式人工智能线索

Nov, 2023

可视化多维数据的对话式人工智能线索

Conversational AI Threads for Visualizing Multidimensional Datasets

Matt-Heun Hong, Anamaria Crisan

TL;DR我们的研究探索了生成式大型语言模型在通过对话界面创建和改进可视化方面的能力，发现生成式语言模型驱动的分析对话机器人在支持渐进式可视化改进方面存在不足。基于这些发现，我们开发了 AI Threads，一个多线程的分析对话机器人，能够主动管理对话上下文并提高其输出的效果。通过众包研究（n=40）和专家分析师的深入访谈（n=10），我们评估了其可用性。我们还在生成式语言模型的训练语料库之外的数据集上展示了 AI Threads 的能力，从而展示了生成式语言模型的潜力，同时也揭示了未来研究的挑战和有成果的方向。

Abstract

generative large language models (LLMs) show potential in data analysis, yet their full capabilities remain uncharted. Our work explores the capabilities of LLMs for creating and refining visualizations via

generative large language models visualizations conversational interfaces analytic chatbots progressive visualization refinements

发现论文，激发创造

基于 LLM 的人工智能聊天机器人的全面调查

本文全面调查了基于大型语言模型（LLMs）的聊天机器人在各个领域的进化和部署，总结了基础聊天机器人发展、LLMs 演进，并提供了当前正在使用和开发中的基于 LLMs 的聊天机器人概述。我们将 AI 聊天机器人视为生成新知识的工具，探讨了它们在各个行业中的多样应用。然后，我们讨论了一些挑战，包括训练 LLMs 使用的数据和生成知识的滥用可能引发的问题。最后，我们展望未来，探索如何提升它们在众多应用中的效率和可靠性。通过介绍 LLMs-based 聊天机器人的关键里程碑和当今背景，我们的调查邀请读者深入研究这一领域，并思考它们的下一代将如何重塑对话型人工智能。

Jun, 2024

为共创即兴剧院设计和评估对话 LLMs

社交机器人研究者对于多方训练的对话代理越来越感兴趣。本研究在爱丁堡节的一个月长的现场表演中使用大型语言模型（LLMs），调查了在职业剧院环境中，人类演员如何与对话代理合作创作。我们探索了即兴多方对话的技术能力和限制，并从观众和表演者的经验中提供了全面的见解。我们的 “人在环环” 的方法强调了这些 LLMs 在生成与上下文相关的回复方面的挑战，并强调了用户界面的关键作用。观众的反馈表明了对 AI 驱动的现场娱乐、人机直接互动以及对 AI 在创造力支持工具方面多样化的期望。人类演员表达了巨大的热情和不同程度的满意度，而不断演变的公众舆论则凸显了人们对于 AI 在艺术中的角色的复杂情感。

May, 2024

ChatIllusion: 高效对齐交错生成自适应可视化指导模型

通过 GenAdapter 将视觉表示能力集成到 ChatIllusion 中，ChatIllusion 是一种高级生成多模态大语言模型，结合了大语言模型的能力和视觉理解能力，能够为用户提供多样且高质量的图像输出，同时保持语义一致性和对话控制性，极大提升用户的体验质量。

Nov, 2023

电信领域中 LLMs 的能力和局限性观察

本文分析了引入生成式人工智能（AI）的大型语言模型（LLMs）—— 如 OpenAI 的 ChatGPT、GPT3.5 和 GPT4、谷歌的 Bard、Large Language Model Meta AI（LLaMA）等 —— 在通信界面（特别是企业无线产品和服务）中应用的能力和局限性，并针对 Craddlepoint 公开数据进行多个用例的比较分析，包括领域自适应、内容连贯性、输入扰动和错误的鲁棒性。我们相信这种评估将为数据科学家提供建立面向领域特定需求的定制对话接口的有用见解。

May, 2023

借助大型语言模型提升患者互动：数字健康中的对话人工智能的力量

通过四个案例研究展示了大型语言模型在医疗保健中的应用，包括分析 Reddit 上的心理健康讨论、为老年人进行认知参与开发个性化聊天机器人、总结医疗对话数据集和设计 AI 助力病患参与系统。同时讨论了在医疗保健环境中引入大型语言模型的道德考虑、最佳实践和指南。

Jun, 2024

聊天机器人的人工智能革命：来自一项随机对照实验的证明

通过一个领域性的随机控制试验，评估基于大型语言模型的工具在提供无监控支持服务方面的有效性。

Jan, 2024

ChatGPT 备选方案：大型语言模型调查

通过对多个 LLM 模型的研究，本文不仅提供了全面的概述，还明确了现有挑战，并指出了未来的研究方向。该综述提供了关于生成型人工智能的当前状态的全面观点，为进一步的探索、增强和创新提供了启示。

Mar, 2024

利用 LLMs 进行对话质量测量

该论文探讨了使用大型语言模型（LLMs）进行自动对话质量评估的方法，并在公共和专有数据集上尝试了各种配置。结果表明，更大的模型产生了更准确的对话标签；算法选择背景上下文示例优于随机选择；在输出最终标签之前，使用 “思维链”（CoT）推理和标签提取过程进行合理化，可以提高性能；精细调整的 LLMs 优于开箱即用的模型。研究结果表明，合适地调整和具有足够推理能力的 LLMs 可以用于自动对话评估。

Jun, 2024

MathChat：多轮交互中数学推理和指令遵循的基准评估

这篇论文介绍了一个专门设计用来评估大型语言模型在更广泛的数学任务上的 MathChat 基准测试，并观察到这些模型在单回合问题回答方面表现出色，但在需要持续推理和对话理解的复杂场景下性能显著下降。通过开发 MathChat sync 这样一个用于提升模型对话能力和指令跟随能力的合成对话型数学数据集，实验结果强调了使用类似 MathChat sync 这样多样化的对话指令微调数据集训练大型语言模型的必要性。作者认为这项工作为改进大型语言模型的多轮数学推理能力指明了一个有希望的方向，推动了更擅长交互式数学问题解决和实际应用的大型语言模型的发展。

May, 2024

调试的交互模式探索：增强人工智能助手的对话能力

通过与行业专业人员进行的被试用户研究，我们发现装备了 LLM 以利用插入扩展交互模式、促进轮流讲话并利用调试工作流的增强型对话式 AI 助手 Robin，降低了对话障碍，实现了有效的故障定位，并提高了 5 倍的错误解决率。

Feb, 2024