探索人与语言模型协同推动定性分析的潜力：以心理疾病歧视为例的案例研究

May, 2024

探索人与语言模型协同推动定性分析的潜力：以心理疾病歧视为例的案例研究

Exploring the Potential of Human-LLM Synergy in Advancing Qualitative Analysis: A Case Study on Mental-Illness Stigma

Han Meng, Yitian Yang, Yunan Li, Jungup Lee, Yi-Chieh Lee

TL;DRCHALET 是一种结合人工智能模型与人类合作的新方法，用于促进质性研究的概念化和推动质性分析的新观点生成，通过应用于心理疾病污名归因模型，揭示了认知、情绪和行为维度上的隐性污名化主题。

Abstract

qualitative analysis is a challenging, yet crucial aspect of advancing research in the field of human-computer interaction (HCI). Recent studies show that →

qualitative analysis human-computer interaction large language models chalet collaborative inductive coding

发现论文，激发创造

基于 LLM 的定性分析拓展人机交互研究视野

使用大型语言模型（LLMs）进行定性数据分析的新方法及其在人机交互（HCI）研究中的潜在应用的性能评估，表明 LLMs 不仅与传统分析方法相当有效，而且还提供独特的见解。

Jan, 2024

LLM-in-the-loop：利用大型语言模型进行主题分析

使用 LLM-in-the-loop 人工智能协作框架进行主题分析，能够在减少人力和时间需求的同时，获得与人工编码者相似的编码质量。

Oct, 2023

使用 LLMs 探索定性研究

本研究对语言模型（LLMs）的理解能力进行了比较和对照，发现人类分析师和 LLMs 的分类和推理能力存在显著差异，但二者合作可能会产生协同效应，从而丰富了定性研究。

Jun, 2023

机器辅助混合方法：用人工智能增强人文社科研究

利用大型语言模型 (LLMs) 的增强功能，扩展人文社会科学领域的数据分析，用于量化、自动化以前需要人工进行的定性分析任务。本文提出了一种系统的混合方法框架，结合了定性分析专业知识、机器可扩展性和严格的量化分析，同时注重透明度和可复制性。通过 16 个机器辅助案例研究作为概念验证，展示了该框架的应用，涉及的任务包括语言和话语分析、词汇语义变化检测、访谈分析、历史事件因果推断和文本挖掘、政治立场检测、文本和思想重用、文学和电影的流派构成、社交网络推断、自动词典编纂、丢失的元数据补充以及多模态视觉文化分析。与现有 LLM 应用文献的英语重点不同，这里的例子涉及较小语言和易于数字化失真的历史文本场景。除了需要专业知识的最困难的任务外，生成 LLMs 可以作为可行的研究工具。LLM (和人工) 标注可能包含错误和变化，但协议率可以在后续统计建模中考虑；文章还讨论了一个引导式方法。案例研究的复制实验证明，以前需要团队努力和复杂计算管道才能完成的任务，现在可以由辅助 LLM 的学者在更短的时间内完成。重要的是，这种方法旨在增强研究者的知识和技能，而不是取代它们。鉴于这些机会，定性专业知识和提出有深度问题的能力无疑变得更加关键。

Sep, 2023

关于在心理健康应用中重新思考大型语言模型

大型语言模型在心理健康方面表现出很大的潜力，但使用它们时需要保持谨慎和考虑，把它们视为辅助人类专业技术而非替代品，因为它们可能产生幻觉般的输出，并且在心理健康咨询中，人类辅导员的情感理解、细致解读和背景意识仍然不可替代。

Nov, 2023

LLM 在一些解释性任务中实现与人类表现相匹配的问题链条推理的可扩展性定性编码

定性编码，或内容分析，从文本中提取含义，以识别文本语料库中的定量模式。最近，大型语言模型（LLM）在解释能力方面的进展为自动编码过程（对文本应用类别标签）提供了可能性，从而使人类研究人员能够集中精力进行更有创意的研究，而将这些解释性任务委托给人工智能。我们的案例研究是关于一项人文研究的一组密集段落长的社会历史代码。我们表明 GPT-4 能够提供与人类相当的解释，而 GPT-3.5 则不能。与我们基于人工导出的黄金标准相比，GPT-4 对于 9 个代码中的 3 个代码提供了出色的编码一致性（Cohen's Kappa >= 0.79），对于 8 个代码提供了显著的一致性（Kappa >= 0.6）。相比之下，GPT-3.5 在所有代码中表现不佳（mean (Kappa) = 0.34; max (Kappa) = 0.55）。重要的是，我们发现当要求 LLM 给出理由来解释其编码决策时（思路连贯推理），编码准确性显著提高。我们提出了这些以及其他发现以及一套适应 LLM 的传统编码手册的最佳实践。我们的结果表明，对于某些编码手册，最先进的 LLM 已经熟练掌握了大规模内容分析技术。此外，他们也表明，下一代模型很可能使人工智能编码成为大多数编码手册的可行选择。

Jan, 2024

由学徒到研究助理：大型语言模型推动研究

通过文献综述和第一手实验，本文研究了大型语言模型（LLMs）的潜力。尽管 LLMs 具有成本效益和高效性等优点，但也存在着诸如提示调优、偏见和主观性等挑战。该研究通过利用 LLMs 进行定性分析的实验提供了新的见解，强调了成功和限制。此外，本文还讨论了缓解挑战的策略，如优化提示技术和利用人类专业知识。我们的工作旨在将 LLMs 有机地融入人机交互数据工作，并积极促进其负责任的应用，以此回应关于 LLMs 在研究中负责任应用的持续对话。

Apr, 2024

LLMs 的多彩未来：评估和改进 LLMs 作为酷儿青少年的情感支持者

通过定性和定量分析大语言模型（LLMs）与酷儿相关内容的交互，本文旨在全面探索 LLMs 改革酷儿情感支持的潜力，并设计了一个新的十个问题量表以评估回复质量。研究发现，LLMs 的回复支持和包容性较强，超过了人类的回复，但往往缺乏个性化和共情，导致不可靠和潜在有害的建议。研究讨论了这些挑战，并提出了一个 LLM 支持者的设计蓝图，该支持者能够主动（但敏感）地获取用户情境信息，以提供个性化、共情和可靠的回复。

Feb, 2024

主题分析的自动化：LLM 如何分析争议话题

该研究试验了大型语言模型（LLMs）在支持主题分析上的作用，发现人工研究者与两个 LLMs 在对澳大利亚 Robodebt 丑闻媒体报道的片段进行主题分类时存在有趣的重叠和差异，表明 LLMs 在支持对话和主题分析方面可以发挥作用，但应用中应该作为人类解释的补充，同时该研究还介绍了一种新颖的基于卡片的设计工具箱，以进一步研究 LLMs 作为分析工具的潜力。

May, 2024

大型语言模型用于心理健康研究的系统综述

总结和概括了大型语言模型（LLMs）在心理健康领域的应用，包括早期筛查、数字干预和其他临床应用领域的强项、限制、挑战和机遇，并指出了 LLMs 在心理健康问题检测和个性化医疗方面的有效性，同时也提出了关于文本一致性、幻觉内容和缺乏伦理框架的风险以及 LLMs 作为创新临床工具的进一步研究和发展的必要性，强调 LLMs 应该是专业心理健康服务的补充而非替代。

Feb, 2024