使用 GPT-3.5 进行学术写作:实践、效力和透明度的反思
本文讨论 OpenAIs ChatGPT,一种用于文本型用户请求(即聊天机器人)的生成式预训练转换器。讨论了 ChatGPT 及类似模型背后的历史和原则,以及其对学术界和学术研究出版的潜在影响。ChatGPT 被认为是自动准备论文和其他类型学术手稿的潜在模型。此外,还讨论了可能出现的潜在伦理问题,并将其置于人工智能、机器学习和自然语言处理的更广泛进展的背景之下。
Mar, 2023
本研究通过在科学教育中使用示例评估任务,突显了精调 ChatGPT(GPT-3.5)自动评分学生书面构建性答案的潜力。与经过领域特定训练数据细调的 Google 生成语言模型 BERT 相比,GPT-3.5 在自动评分准确性上表现出显著提高,并发布了细调模型以供公众使用和社区参与。
Oct, 2023
使用 ChatGPT 3.5 和 4 对研究论文进行分析以提高科学文献调查的有效性,选择 “人工智能在乳腺癌治疗中的应用” 作为研究主题,使用 ChatGPT 模型自动识别相关论文、对论文按范围进行组织和确定调查论文的关键信息,结果显示 GPT-4 能以 77.3% 准确率识别研究论文类别,50% 的论文的范围能被 GPT-4 正确识别,且 67% 的模型给出的原因是专家完全同意的。
Mar, 2024
通过对从 2018 年 5 月到 2024 年 1 月提交的 100 万篇 arXiv 论文进行统计分析,我们评估了 ChatGPT 在其摘要中的文本密度,通过词频变化的统计分析。我们的模型在真实摘要和 ChatGPT 修改后的摘要(模拟数据)的混合数据上进行校准和验证,经过仔细的噪声分析。我们发现,ChatGPT 对 arXiv 摘要的影响正在增加,特别是在计算机科学领域,ChatGPT 修改的摘要比例估计约为 35%,如果我们以 “修改以下句子” 作为基准。最后,我们分析了 ChatGPT 对学术写作风格渗透的积极和消极方面。
Apr, 2024
探究使用 ChatGPT-3 作为写作辅助工具与否对学生的论文写作表现的影响,结果表明,在大多数参数下,控制组优于实验组。
Feb, 2023
该研究全面评估了 GPT-3.5 在 21 个数据集上进行文本转换后的表现,发现其在某些任务上表现优异,但仍存在重大的鲁棒性降级,而且 GPT-3.5 面临着一些特定的鲁棒性挑战,这些发现对于了解其限制以及指导未来的研究具有重要价值。
Mar, 2023
本文介绍 GPT-3 技术的历史发展、关键特性、机器学习模型和数据集,并讨论了其在各个领域中的应用,如人工智能聊天机器人、软件开发、创意工作、领域知识和商业生产力;同时探讨了 GPT-3 面临的挑战,如训练复杂性、偏见和幻觉 / 错误答案等,并讨论了未来的研究机会。
Dec, 2022
调查美国大学关于在教育中使用 ChatGPT 的学术政策和指南,发现大多数大学对生成式人工智能的整合持开放但谨慎的态度,并表达了他们对道德使用、准确性和数据隐私的担忧,提供了各种资源和指南,包括教学大纲模板 / 样本,研讨会和讨论,共享文章和一对一咨询,重点关注一般技术介绍、道德关注、教学应用、预防策略、数据隐私、限制和探测工具。
Dec, 2023
本研究选取了 6 个代表性的 GPT 系列模型,对它们在 21 个数据集上进行了 9 项自然语言任务的性能评估,发现尽管引入强化学习任务和人性化反馈机制提高了 GPT 系列模型生成人类语言的能力,但也有牺牲部分任务解决能力的代价,同时还有提高模型的鲁棒性的空间。
Mar, 2023
本实验研究使用 OpenAI 的 GPT-3.5 模型在一个自动化的评估平台上生成学生编程作业的个性化提示,实验小组依赖平台反馈较少但在启用 GPT 提示时表现得更好。
Jun, 2023