走向人机协作讨论分析的人在循环中语言模型方法

May, 2024

走向人机协作讨论分析的人在循环中语言模型方法

Towards A Human-in-the-Loop LLM Approach to Collaborative Discourse Analysis

Clayton Cohn, Caitlin Snyder, Justin Montenegro, Gautam Biswas

TL;DR采用人在循环提示工程方法与 GPT-4-Turbo 进行学生之间的协同话语的总结和分类的初步结果表明 GPT-4-Turbo 可能能够以与人类相媲美的方式表征学生的协同学习，并且我们的方法值得进一步研究。

Abstract

llms have demonstrated proficiency in contextualizing their outputs using human input, often matching or beating human-level performance on a variety of tasks. However, llms have not yet been used to characterize

llms synergistic learning collaborative discourse human-in-the-loop prompt engineering gpt-4-turbo

发现论文，激发创造

人机协作的大型语言模型机器翻译

借鉴人机交互和上下文学习的特点，提出了一种人机协作的流程，通过指导大型语言模型生成自定义输出，以改善翻译性能，并进行了多个角度的评估和分析。

Oct, 2023

从学生话语中预测挑战时刻：GPT-4 与两种传统自然语言处理方法的比较

本研究调查了利用专家知识规则模型、监督式机器学习模型和大型语言模型（LLM）从学生讨论中检测挑战和识别挑战维度（认知、元认知、情感和技术 / 其他挑战）的潜力。结果显示，监督式机器学习和 LLM 在两个任务中表现出色，而基于规则的方法则主要依赖专家设计的特征。该论文对自动检测和支持学生在协作学习活动中遇到的挑战时刻的三种方法的表现进行了广泛讨论。论文认为，尽管 LLMs 具有许多优势，但由于其缺乏可靠性以及在有效性评估、隐私和杂乱性方面存在问题，它们不太可能成为解决学习的社交共享调控的检测和反馈问题的万灵药。我们通过讨论额外的考虑因素来结束该论文，包括模型的透明度，以探索使用 LLMs 为学生和教育工作者提供可行且有意义的分析反馈。

Jan, 2024

LLM-in-the-loop：利用大型语言模型进行主题分析

使用 LLM-in-the-loop 人工智能协作框架进行主题分析，能够在减少人力和时间需求的同时，获得与人工编码者相似的编码质量。

Oct, 2023

合作评估：探索大型语言模型与人类在开放式生成评估中的协同作用

为了解决开放式自然语言生成任务中评估标准不一致的挑战，我们提出了一种协同评估流程 CoEval，涉及特定任务标准的清单设计和文本的详细评估，其中大型语言模型生成初步的构思，而人类进行审查，结果显示，通过利用大型语言模型，CoEval 能够高效地评估长文本，节省时间并减少人类评估的异常值，人类审查仍然起着重要作用，以最终确保可靠性。

Oct, 2023

评估大型语言模型在课堂对话分析中的应用

该研究探讨了大型语言模型（LLM），特别是 GPT-4，在课堂对话分析中的应用，这是教学诊断和质量改进的关键研究任务。研究发现传统定性方法在教育研究中具有知识密集和劳动密集的特点，调查了 LLM 在简化和增强分析过程方面的潜力。通过对中学的数据集进行分析，包括数学和语文课堂的对话，该研究对人工编码的对话进行了评估，并使用定制的 GPT-4 模型进行了分析。该研究重点比较了手动注释和 GPT-4 输出，以评估其在教育对话分析中的有效性。评估了 GPT-4 的时间效率、编码者间一致性和编码者间可靠性。结果表明，使用 GPT-4 能够显著节省时间，并且模型与人工编码者之间具有高度的一致性，尽管在某些代码上存在差异。这些发现凸显了 LLM 在教学评估和促进方面的巨大潜力。

Feb, 2024

循环中的 LLM：利用大型语言模型注释在低资源语言中进行主动学习

通过在主动学习环路中利用 LLM 的潜力进行数据标注，我们的提议在极低的数据需求下显著提高了性能，为低资源环境中的自动化带来了巨大的潜在成本节约。这种方法能够弥合低资源语言和人工智能之间的鸿沟，促进更广泛的包容，并有潜力在不同的语言环境中实现自动化。

Apr, 2024

基于大型语言模型的教育调查反馈分析

本研究评估了大型语言模型（LLMs）GPT-4 和 GPT-3.5 在教育反馈调查中提供洞察力的潜力，并应用自然语言处理的方法，通过多标签分类、提取、主题分析和情感分析等任务来实现教育中常见的目标，从而展示了 LLMs 在洞察力提取方面的巨大潜力。

Sep, 2023

从声音到可信度：利用大型语言模型（LLM）对政策利益相关者访谈进行文本分析

该研究通过将人类专业知识与大型语言模型（如 GPT-4）相结合，探索了人与计算机相互配合进行教育政策研究中的文本分析。结果显示，GPT-4 在特定主题上与人类编码的统一性达到 77.89％，在更广泛的主题上达到 96.02％，超过传统自然语言处理方法 25％以上，并且 GPT-4 更接近专家的情感分析。这种人与计算机相互配合的方法提高了教育政策研究的效率、有效性和可解释性。

Dec, 2023

我们来谈谈：探索竞争 LLM 代理商的自发合作

最近的研究发现，由大型语言模型（LLMs）驱动的代理人具有模拟人类行为和社会动态的能力。我们通过三个案例研究揭示，即使在竞争环境中，LLM 代理人也能够自发地建立合作关系。这一发现不仅展示了 LLM 代理人模仿人类社会中竞争与合作的能力，而且验证了计算社会科学的一个有前途的愿景。具体来说，它表明 LLM 代理人可以用来模拟人类社会交互，包括自发的合作，从而为社会现象提供洞察力。

Feb, 2024

主题分析的自动化：LLM 如何分析争议话题

该研究试验了大型语言模型（LLMs）在支持主题分析上的作用，发现人工研究者与两个 LLMs 在对澳大利亚 Robodebt 丑闻媒体报道的片段进行主题分类时存在有趣的重叠和差异，表明 LLMs 在支持对话和主题分析方面可以发挥作用，但应用中应该作为人类解释的补充，同时该研究还介绍了一种新颖的基于卡片的设计工具箱，以进一步研究 LLMs 作为分析工具的潜力。

May, 2024