ChatGPT-4 中明显概念物理推理的进展
这篇文章研究了 ChatGPT3.5 和 ChatGPT4 在大学物理中表现的能力,表明 ChatGPT3.5 可以达到甚至超过完成一学期大学物理的学生的中位数表现,而 ChatGPT4 的表现则已接近专业物理学家的水平。
Mar, 2023
本研究通过探索 OpenAI 的 ChatGPT 在解决不同类型的物理问题方面的能力,发现 ChatGPT 在解决给定完整数据的问题上的成功率为 62.5%,而在未给定全部必要数据的实际问题上的准确率下降至 8.3%。该研究提出了关于如何利用增强学习模型的教材来提升 STEM 教育的启示,并为人工智能的优势和局限性提供了见解,对于旨在利用该技术的教育工作者以及研究人员来研究问题解决和决策制定中的人工智能与人类协作框架有所贡献。
Oct, 2023
研究 LLMs 和 GPTs 在处理常识问题中的表现,实验结果表明:(1) GPTs 在通识任务中可以取得较好的 QA 准确率,但仍然较难处理某些类型的知识。(2) ChatGPT 具有常识知识,可以利用知识提示正确生成大部分常识知识。(3) ChatGPT 是一名经验不丰富的常识问题解决者,不能准确地识别回答一个特定问题所需的常识知识,这需要更好的常识引导机制,如遵循指示、更好的常识引导等。
Mar, 2023
本文旨在评估人工智能工具 ChatGPT 在计算机工程学科中的表现;研究发现它可以回答关于概念的问题,但由于它是一种文字工具,所以无法处理需要用到图表和手工实验的问题。
Mar, 2023
通过 12 个预注册的实验,我们发现像 ChatGPT 这样的运用大型语言模型的聊天机器人能够在很大程度上模仿人类语言处理,但是他们在一些方面与人类处理方式存在差异,并且可能通过 Transformer 架构来解释这些差异。
Mar, 2023
本研究探讨了 ChatGPT 在机械工程学科中的能力,并通过使用大学提供的初级和高级机械工程考试题目以及机械工程基础考试(FE)的模拟题目,分析了两个 ChatGPT 模型的回答。结果发现,付费订阅模型(GPT-4)在正确率上远远超过免费版本(GPT-3.5),但由于两个模型仅支持文本输入,因此都不太可能通过 FE 考试。研究结果确认了 ChatGPT 在文献中关于错误类型和陷阱的发现,其最适合具有专业知识的用户使用。
Sep, 2023
本研究使用 GHOSTS 数据集评估了 ChatGPT 的数学能力和其他训练过数学语料库的模型相比,发现其数学能力显著低于普通数学研究生,并强调 GHOSTS 数据集的重要性以及未来大型语言模型在高级数学理解方面的比较研究。
Jan, 2023
我们的研究聚焦于高等物理教育,研究了问题解决策略。研究结果显示,虽然学生在专业领域对 ChatGPT 过度依赖,却存在误判的情况;此外,在使用 ChatGPT 时,学生普遍缺乏反思,出现了与传统搜索引擎有明显不同的交互行为。因此,我们强调有必要引导学生如何与大型语言模型进行交互,并对潜在问题进行提醒。
Aug, 2023
本技术报告针对大型语言模型 (ChatGPT 和 GPT-4),探究它们在玩文字游戏方面的能力,实验证明 ChatGPT 表现与现有系统相比具有竞争力,但仍没有足够的智能去构建游戏世界模型、利用已有世界知识和推断游戏进程中的目标。这为人工智能、机器学习和自然语言处理交叉领域开辟了新的研究问题。
Apr, 2023
ChatGPT 是如何运作并具备超过预期能力的?本文通过与 ChatGPT-4 对话的方式,对 ChatGPT 作出解释,包括与语言自身相关的良性偏见、语言的间接语义基础以及神经网络中的类别学习等。
Feb, 2024