基于 LLM 的定性分析拓展人机交互研究视野

Jan, 2024

基于 LLM 的定性分析拓展人机交互研究视野

Expanding Horizons in HCI Research Through LLM-Driven Qualitative Analysis

Maya Grace Torii, Takahito Murakami, Yoichi Ochiai

TL;DR使用大型语言模型（LLMs）进行定性数据分析的新方法及其在人机交互（HCI）研究中的潜在应用的性能评估，表明 LLMs 不仅与传统分析方法相当有效，而且还提供独特的见解。

Abstract

How would research be like if we still needed to "send" papers typed with a typewriter? Our life and research environment have continually evolved, often accompanied by controversial opinions about new methodolog

research qualitative analysis hci large language models performance evaluation

发现论文，激发创造

由学徒到研究助理：大型语言模型推动研究

通过文献综述和第一手实验，本文研究了大型语言模型（LLMs）的潜力。尽管 LLMs 具有成本效益和高效性等优点，但也存在着诸如提示调优、偏见和主观性等挑战。该研究通过利用 LLMs 进行定性分析的实验提供了新的见解，强调了成功和限制。此外，本文还讨论了缓解挑战的策略，如优化提示技术和利用人类专业知识。我们的工作旨在将 LLMs 有机地融入人机交互数据工作，并积极促进其负责任的应用，以此回应关于 LLMs 在研究中负责任应用的持续对话。

Apr, 2024

探索人与语言模型协同推动定性分析的潜力：以心理疾病歧视为例的案例研究

CHALET 是一种结合人工智能模型与人类合作的新方法，用于促进质性研究的概念化和推动质性分析的新观点生成，通过应用于心理疾病污名归因模型，揭示了认知、情绪和行为维度上的隐性污名化主题。

May, 2024

使用 LLMs 探索定性研究

本研究对语言模型（LLMs）的理解能力进行了比较和对照，发现人类分析师和 LLMs 的分类和推理能力存在显著差异，但二者合作可能会产生协同效应，从而丰富了定性研究。

Jun, 2023

机器辅助混合方法：用人工智能增强人文社科研究

利用大型语言模型 (LLMs) 的增强功能，扩展人文社会科学领域的数据分析，用于量化、自动化以前需要人工进行的定性分析任务。本文提出了一种系统的混合方法框架，结合了定性分析专业知识、机器可扩展性和严格的量化分析，同时注重透明度和可复制性。通过 16 个机器辅助案例研究作为概念验证，展示了该框架的应用，涉及的任务包括语言和话语分析、词汇语义变化检测、访谈分析、历史事件因果推断和文本挖掘、政治立场检测、文本和思想重用、文学和电影的流派构成、社交网络推断、自动词典编纂、丢失的元数据补充以及多模态视觉文化分析。与现有 LLM 应用文献的英语重点不同，这里的例子涉及较小语言和易于数字化失真的历史文本场景。除了需要专业知识的最困难的任务外，生成 LLMs 可以作为可行的研究工具。LLM (和人工) 标注可能包含错误和变化，但协议率可以在后续统计建模中考虑；文章还讨论了一个引导式方法。案例研究的复制实验证明，以前需要团队努力和复杂计算管道才能完成的任务，现在可以由辅助 LLM 的学者在更短的时间内完成。重要的是，这种方法旨在增强研究者的知识和技能，而不是取代它们。鉴于这些机会，定性专业知识和提出有深度问题的能力无疑变得更加关键。

Sep, 2023

大型语言模型在学生论文评价中的应用

本文通过三种场景下的评估：1）不提供指导，2）使用预先规定的评分标准，3）通过论文的两两对比，与实际学生论文一起使用大语言模型（LLM）进行评估，以降低教师的工作量。定量分析结果显示，使用预先规定的评分标准对 LLM 与教师评估之间存在强相关性，尽管存在有关评估质量和稳定性的担忧。因此，对 LLM 的评估意见进行了定性分析，结果表明：1）LLM 可以达到教师的评估能力，2）LLM 评估中的差异应解释为多样性而非混乱，3）人类和 LLM 的评估可以不同且相互补充。综上所述，本文建议将 LLM 视为教师评估委员会的合作伙伴，并为进一步研究提供了方向。

May, 2024

利用大型语言模型进行定性分析可能引入严重偏见

大型语言模型在社会科学研究中的应用需要谨慎，使用高质量人工注释训练的简单监督模型比使用大型语言模型进行注释具有较少的测量误差和偏差。

Sep, 2023

后图灵：LLM 评估地图绘制

大语言模型的评估方法学的引入和标准化是一个重要的挑战，本文追溯了 LLM 评估的历史轨迹，从 Alan Turing 提出的基础问题到现代人工智能研究的时代。我们将 LLM 的发展划分为不同的时期，每个时期都有其独特的基准和评估标准。随着 LLM 越来越像人类行为，传统的评估指标，如图灵测试，变得不太可靠了。我们强调了对统一评估体系的迫切需求，考虑到这些模型的更广泛的社会影响。通过对常见评估方法的分析，我们主张在评估方法上进行定性转变，强调标准化和客观标准的重要性。本研究呼吁人工智能社区共同解决 LLM 评估的挑战，确保其可靠性、公正性和社会利益。

Nov, 2023

定位论文：高性能计算研究与低延迟学习机制的现状和挑战

近期，语言模型（尤其是大型语言模型）在深度学习领域引发了一场革命。本文提出了将这些模型技术应用于高性能计算任务的观点，并强调了现有思想在此领域中如何改进和适应。

Feb, 2024

探索 LLM 在心理应用领域的前沿：综述

本文探索大型语言模型在心理学应用中的前沿。大型语言模型如 ChatGPT 正在改变心理学研究的方式，并在认知与行为心理学、临床与咨询心理学、教育与发展心理学以及社会与文化心理学等多个领域发挥着影响，强调了它们模拟人类认知和行为的潜力。该论文还讨论了这些模型在心理学方面的能力，提供了创新工具用于文献综述、假设生成、实验设计、实验对象选择、数据分析、学术写作和同行评审。然而，尽管大型语言模型对推进心理学研究方法至关重要，但该论文也注意到了其技术和伦理挑战，如数据隐私、在心理学研究中使用大型语言模型的伦理影响以及对这些模型局限性的更深入了解的需要。研究人员应该负责任地在心理学研究中使用大型语言模型，遵守伦理标准，并考虑在敏感领域部署这些技术的潜在后果。总之，这篇文章全面概述了大型语言模型在心理学中的现状，探讨了潜在的好处和挑战。它号召研究人员在充分利用这些模型的优势的同时，负责任地解决相关风险。

Jan, 2024

主题分析的自动化：LLM 如何分析争议话题

该研究试验了大型语言模型（LLMs）在支持主题分析上的作用，发现人工研究者与两个 LLMs 在对澳大利亚 Robodebt 丑闻媒体报道的片段进行主题分类时存在有趣的重叠和差异，表明 LLMs 在支持对话和主题分析方面可以发挥作用，但应用中应该作为人类解释的补充，同时该研究还介绍了一种新颖的基于卡片的设计工具箱，以进一步研究 LLMs 作为分析工具的潜力。

May, 2024