DataTales：探究大型语言模型在编写数据驱动文章中的应用

Aug, 2023

DataTales：探究大型语言模型在编写数据驱动文章中的应用

DataTales: Investigating the use of Large Language Models for Authoring Data-Driven Articles

Nicole Sultanum, Arjun Srinivasan

TL;DR本研究探讨使用大型语言模型（LLMs）支持数据驱动文章创作的可行性和感知价值，设计了一个原型系统 DataTales，通过使用 LLMs 生成与给定图表相关的文本叙述，并通过与 11 名专业人士进行定性研究评估了该概念，从中提炼了 LLMs 作为有价值的数据驱动文章创作助手的优点和机会。

Abstract

authoring data-driven articles is a complex process requiring authors to not only analyze data for insights but also craft a cohesive narrative that effectively communicates the insights. →

authoring data-driven articles large language models text generation datatales

发现论文，激发创造

由学徒到研究助理：大型语言模型推动研究

通过文献综述和第一手实验，本文研究了大型语言模型（LLMs）的潜力。尽管 LLMs 具有成本效益和高效性等优点，但也存在着诸如提示调优、偏见和主观性等挑战。该研究通过利用 LLMs 进行定性分析的实验提供了新的见解，强调了成功和限制。此外，本文还讨论了缓解挑战的策略，如优化提示技术和利用人类专业知识。我们的工作旨在将 LLMs 有机地融入人机交互数据工作，并积极促进其负责任的应用，以此回应关于 LLMs 在研究中负责任应用的持续对话。

Apr, 2024

大型语言模型用于进行高级文本分析信息系统研究

数字内容的指数级增长引发了大规模文本数据集，需要先进的分析方法。大型语言模型作为处理和提取海量非结构化文本数据集的工具已经出现。为了帮助信息系统研究了解如何操作化大型语言模型，我们提出了一个用于信息系统研究的文本分析框架（TAISR）。我们的框架为如何进行有意义的基于文本的信息系统研究提供了详细的建议，这些建议基于信息系统和大型语言模型的文献。我们在商业智能领域进行了三个案例研究，用我们的 TAISR 框架来展示其在几个信息系统研究背景下的应用。我们还概述了采用大型语言模型进行信息系统研究可能面临的挑战和局限。通过提供一种系统化的方法并证明其实用性，我们的 TAISR 框架有助于未来将强大的大型语言模型添加到文本分析的信息系统研究流程中。

Dec, 2023

大型语言模型是否成为数据流水线的新接口？

语言模型是一种广义的术语，它包含了各种类型的模型，旨在理解和生成人类的交流。大型语言模型（LLM）因其具有与人类类似的流畅和连贯性处理文本的能力而引起了人们的广泛关注，这使它们在以管道方式构建的各种数据相关任务中具有价值。LLM 在自然语言理解和生成方面的能力，结合其可伸缩性、多样性和领先性能，使其在诸如解释性人工智能（XAI）、自动化机器学习（AutoML）和知识图谱（KG）等各个人工智能领域具有创新应用的能力。此外，我们还相信这些模型能够从大规模数据中提取有价值的见解，并进行数据驱动的决策，这种做法通常被称为大数据分析（BDA）。在本立场论文中，我们对这些技术之间的协同作用提供一些讨论，该协同作用可以实现更强大和智能的人工智能解决方案，推动在整合人、计算机和知识的各种应用和领域中数据管道的改进。

Jun, 2024

数据科学教育应如何处理大型语言模型？

大型语言模型 (Large Language Models, LLMs) 的迅猛发展正在革新数据科学和统计学，该论文旨在探讨 LLMs 对于数据科学教育的潜在机遇、资源和挑战，以及其在数据科学中的作用转变和创造性应用。

Jul, 2023

增强语言模型数据整合的学习

本篇论文研究了大型语言模型的局限性，提出了使用外部数据访问技术扩展语言模型的解决方法，并将其与数据集成的研究进行了比较，探讨了研究路径的启示。

Apr, 2023

大型语言模型为传统主题建模方法提供了一种替代方案

本研究旨在探讨大型语言模型（LLMs）在主题提取方面的潜力，并建立评估协议以评估 LLMs 的聚类效果。通过深入实验与评估，总结了采用 LLMs 进行主题提取的优势和限制。

Mar, 2024

从查询工具到因果架构：利用大型语言模型从数据中进行先进的因果发现

本文提出了一种结合基于知识的 LLMs 因果分析和数据驱动因果结构学习的新框架，以构建因果结构学习的新范式，并介绍了一套广泛的提示组，以从给定变量中提取因果图，并评估 LLM 先前因果对从数据中恢复因果结构的影响

Jun, 2023

大型语言模型是有效的表格到文本生成器、评估器和反馈提供者

本研究研究了大型语言模型在生成结构化表格数据文本时的性能，证明了大型语言模型在文本生成领域中的潜力和应用，并探讨了大型语言模型在文本生成质量自动评估及模型优化中的应用。

May, 2023

揭示 LLM 生成数据的本质

本研究探讨了大型语言模型（LLMs）在生成人工数据中的不断扩大的作用。尽管人工数据能够与人类性能相匹配，但本文揭示了显著的潜在差异，尤其是在复杂任务中，LLMs 常常错过对内在人类生成内容的微妙理解。该研究批判性地考察了多样化的 LLM 生成数据，并强调了在数据创建和使用 LLMs 时遵循道德实践的必要性。它凸显了解决 LLM 生成内容中产生的偏差和人为因素对于未来研究和开发的重要性。所有数据和代码都可在我们的项目页面上获得。

Jan, 2024

从文学角度评估大型语言模型的创造力

该研究通过一个深入的案例研究，评估了大型语言模型在创意写作过程中作为辅助工具的潜力。研究中开发了交互式多声音提示策略，交织了背景描述、指导写作的指令、目标风格的文本示例和给定示例的关键讨论，并从文学批评的角度以及计算创造力的角度进行了定性评估。研究结果支持大型语言模型能够实现高级提示的观点。

Nov, 2023