通过交互评估数学语言模型

Jun, 2023

Evaluating Language Models for Mathematics through Interactions

Katherine M. Collins, Albert Q. Jiang, Simon Frieder, Lionel Wong, Miri Zilka...

TL;DR使用交互式评估方法评估大型语言模型在大学级数学推理方面的能力，为人工智能从业者和数学教授提供可行的建议，重点在于模型应该如何处理不确定性和人类纠错。

Abstract

The standard methodology of evaluating large language models (LLMs) based on static pairs of inputs and outputs is insufficient for developing assistants: this kind of assessments fails to take into account the essential interactive element in their deployment, and therefore limits how

large language models interactive evaluation mathematical reasoning taxonomy of human behaviors gpt-4

发现论文，激发创造

利用大型语言模型评估导师应对学生数学错误的表现

该研究调查两个生成模型在评估真实教师在应对学生数学错误方面的表现能力，发现 GPT-3.5-Turbo 和 GPT-4 都能够熟练评估与学生犯错有关的标准，但在识别学生错误的情况下存在局限性。未来的研究将致力于通过评估更多对话数据集和评估学习转化来提升泛化能力，进一步分析教师在真实场景中应对学生数学错误的表现。

Jan, 2024

评估和优化大型语言模型的教育内容

利用语言模型作为教育专家评估不同学生群体学习成果的方法，以优化教育材料。这种方法可以复制已有的教育研究结果，如专业逆转效应和变异效应，展示了语言模型作为可靠教育内容评估者的潜力。基于此，我们介绍了一种通过一个语言模型生成教育材料，另一个语言模型作为奖励函数进行指令优化的方法，并在数学问题工作表领域应用了这一方法，以最大化学生的学习收益。人类教师对这些由语言模型生成的工作表进行评估，发现语言模型的判断与人类教师的偏好具有显著的一致性。最后，我们讨论了人类和语言模型之间的潜在分歧和自动化教学设计带来的陷阱。

Mar, 2024

评估大型语言模型在课堂对话分析中的应用

该研究探讨了大型语言模型（LLM），特别是 GPT-4，在课堂对话分析中的应用，这是教学诊断和质量改进的关键研究任务。研究发现传统定性方法在教育研究中具有知识密集和劳动密集的特点，调查了 LLM 在简化和增强分析过程方面的潜力。通过对中学的数据集进行分析，包括数学和语文课堂的对话，该研究对人工编码的对话进行了评估，并使用定制的 GPT-4 模型进行了分析。该研究重点比较了手动注释和 GPT-4 输出，以评估其在教育对话分析中的有效性。评估了 GPT-4 的时间效率、编码者间一致性和编码者间可靠性。结果表明，使用 GPT-4 能够显著节省时间，并且模型与人工编码者之间具有高度的一致性，尽管在某些代码上存在差异。这些发现凸显了 LLM 在教学评估和促进方面的巨大潜力。

Feb, 2024

评估大型语言模型的数学推理能力：重点关注错误识别和纠正

我们通过定义四个评估任务，并设计多样的提示来全面评估十一种代表性的 LLM 模型，从考官的角度出发，为错误识别和修正提供了新的数据集和注释的错误类型和步骤。研究结果表明 GPT-4 在所有模型中表现最佳，而开源模型 LLaMA-2-7B 的能力与闭源模型 GPT-3.5 和 Gemini Pro 相当。尤其是计算错误被证明是最具挑战性的错误类型。此外，使用错误类型提示 LLM 可以将平均修正准确率提高 47.9%。这些结果揭示了开发 LLM 的数学推理能力的潜在方向。

Jun, 2024

数学家的大型语言模型

大型语言模型（LLMs）如 ChatGPT 因其通用的语言理解能力而备受关注，尤其是它们生成高质量文本或计算机代码的能力。在本文中，我们讨论它们在何种程度上可以辅助数学专家，并提供了现代语言模型中使用的变压器模型的数学描述。基于最近的研究，我们概述了最佳实践和潜在问题，并报告了语言模型的数学能力。最后，我们揭示了 LLMs 改变数学家工作方式的潜力。

Dec, 2023

在大语言模型时代重新思考对话式推荐系统的评估

本文介绍了利用大型语言模型进行对话推荐的研究，并提出了一种基于 LLM 的用户模拟器的交互式评估方法 iEvaLM，从而改善了现有的评估协议。在两个公共数据集上的实验表明，ChatGPT 展现出较大的优势，并强调解释性的评估。此研究有助于更深入地理解 LLMs 在 CRSs 中的潜力，并为未来的研究提供一个更灵活、易于使用的评估框架。

May, 2023

基于大型语言模型的教育调查反馈分析

本研究评估了大型语言模型（LLMs）GPT-4 和 GPT-3.5 在教育反馈调查中提供洞察力的潜力，并应用自然语言处理的方法，通过多标签分类、提取、主题分析和情感分析等任务来实现教育中常见的目标，从而展示了 LLMs 在洞察力提取方面的巨大潜力。

Sep, 2023

MathChat：多轮交互中数学推理和指令遵循的基准评估

这篇论文介绍了一个专门设计用来评估大型语言模型在更广泛的数学任务上的 MathChat 基准测试，并观察到这些模型在单回合问题回答方面表现出色，但在需要持续推理和对话理解的复杂场景下性能显著下降。通过开发 MathChat sync 这样一个用于提升模型对话能力和指令跟随能力的合成对话型数学数据集，实验结果强调了使用类似 MathChat sync 这样多样化的对话指令微调数据集训练大型语言模型的必要性。作者认为这项工作为改进大型语言模型的多轮数学推理能力指明了一个有希望的方向，推动了更擅长交互式数学问题解决和实际应用的大型语言模型的发展。

May, 2024

探索大型语言模型生成形成性编程反馈的潜力

探索大型语言模型在计算机教育和学习中的潜力，通过分析其对带有程序代码的输入生成的反馈进行研究，以此为目标来帮助学生解决编程任务并识别不同类型的反馈。结果表明，大型语言模型在一些入门编程任务和学生错误方面表现出了合理的性能，但教育者应提供指导，因为其提供的反馈可能对初学者包含误导性信息。

Aug, 2023

基于 LLM 助手何时出错：对基于提示的软件求助交互有效性的研究

大型语言模型（LLM）助手是帮助用户浏览复杂多功能软件的潜在替代方法。我们通过与 16 名参与者的实验和后续访谈对 LLM 生成的软件指导进行了研究。我们比较了基准 LLM 助手与一种针对特定软件背景优化过的 LLM 助手 SoftAIBot，后者还提供了构建适当提示的指南。但令人惊讶的是，虽然 SoftAIBot 优于基准 LLM，但我们的结果显示，无论是否使用提示指南和领域上下文的集成，LLM 的使用和用户感知没有显著差异。大多数用户难以理解提示文本与 LLM 的回应之间的关联，并且通常逐字逐句地遵循 LLM 的建议，即使是错误的。这导致在使用 LLM 的软件任务建议时出现困难，降低了任务完成率。我们的详细分析还表明，用户对 LLM 的回应中的错误毫不知情，这表明他们在软件专业知识的缺乏和评估 LLM 助手的能力之间存在差距。随着设计领域特定 LLM 助手的推动日益增加，我们强调将可解释的、上下文感知的提示融入 LLM 中的重要性，以帮助用户理解基于提示的交互，识别偏见，并最大化 LLM 助手的效用。

Feb, 2024