GPT-3 和 GPT-3.5 系列模型综合能力分析

Mar, 2023

GPT-3 和 GPT-3.5 系列模型综合能力分析

A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models

Junjie Ye, Xuanting Chen, Nuo Xu, Can Zu, Zekai Shao...

TL;DR本研究选取了 6 个代表性的 GPT 系列模型，对它们在 21 个数据集上进行了 9 项自然语言任务的性能评估，发现尽管引入强化学习任务和人性化反馈机制提高了 GPT 系列模型生成人类语言的能力，但也有牺牲部分任务解决能力的代价，同时还有提高模型的鲁棒性的空间。

Abstract

gpt series models, such as GPT-3, CodeX, InstructGPT, ChatGPT, and so on, have gained considerable attention due to their exceptional natural language processing capabilities. However, despite the abundance of research on the difference in capabilities between →

gpt series models natural language processing nlu tasks rlhf training strategy model robustness

发现论文，激发创造

关于语言理解任务，GPT-3.5 对前身模型的鲁棒性有多强？一项全面研究

该研究全面评估了 GPT-3.5 在 21 个数据集上进行文本转换后的表现，发现其在某些任务上表现优异，但仍存在重大的鲁棒性降级，而且 GPT-3.5 面临着一些特定的鲁棒性挑战，这些发现对于了解其限制以及指导未来的研究具有重要价值。

Mar, 2023

GPT 模型在机器翻译中有多好？一项全面评估

本研究对 GPT 模型在机器翻译方面的表现进行了全面评估，涵盖了许多方面，如与最新研究和商业系统的不同 GPT 模型的质量比较，提示策略的效果，域转换和文档级翻译的鲁棒性。实验覆盖了 18 个不同的翻译方向，包括高资源和低资源语言以及非以英语为中心的翻译，评估了三个 GPT 模型：ChatGPT，GPT3.5 (text-davinci-003) 和 text-davinci-002。实验结果表明，对于高资源语言，GPT 模型达到了极具竞争力的翻译质量，而对于低资源语言的能力却有限，同时也证明了混合方法（将 GPT 模型与其他翻译系统相结合）可以进一步提高翻译质量。我们进行了全面的分析和人工评估，以进一步了解 GPT 翻译的特点。我们希望我们的论文为研究人员和实践者提供有价值的见解，并有助于更好地理解 GPT 模型在翻译方面的潜力和局限性。

Feb, 2023

GPT 作为知识工作者：对（AI）CPA 能力的零 - shot 评估

本文研究了 text-davinci-003 和不同版本的 GPT-3 的表现，发现大语言模型有潜力提升未来知识工作的质量和效率。

Jan, 2023

关于 GPT-3 的调查

本文介绍 GPT-3 技术的历史发展、关键特性、机器学习模型和数据集，并讨论了其在各个领域中的应用，如人工智能聊天机器人、软件开发、创意工作、领域知识和商业生产力；同时探讨了 GPT-3 面临的挑战，如训练复杂性、偏见和幻觉 / 错误答案等，并讨论了未来的研究机会。

Dec, 2022

对 GPT-3 在语法错误修正方面的性能分析

本文通过实验分析 GPT-3 文本模型在语法纠错任务（GEC）上的性能，比较了不同提示方式下的表现，使用自动度量和人为评估的结合揭示了人类评估者与基于参考的自动度量之间的有趣差异。

Mar, 2023

GPT-3.5 与 GPT-4：在零样本学习中评估 ChatGPT 的推理性能

本文对 GPT-3.5 和 GPT-4 进行全面技术评估，发现 GPT-4 在几乎所有测试任务中优于 GPT-3.5，并提出一组改良数据来提高两种模型的零样本学习能力。

May, 2023

通过基于 ASCII-Art 的跨模态任务，测试 ChatGPT 的理解深度：GPT3.5 在识别和生成 ASCII-Art 方面的能力并非完全缺乏

对 ChatGPT 及其基础模型 GPT3.5 的可视任务进行分析，包括图像识别和图像生成等方面。

Jul, 2023

ChatGPT 的行为如何随时间变化？

GPT-3.5 和 GPT-4 是广泛使用的两个大型语言模型（LLM）服务，本研究通过评估二者在数学问题解决、回答敏感 / 危险问题、生成代码和视觉推理方面的表现，发现它们的性能和行为会随时间变化而大幅波动，强调了对 LLM 质量的持续监控的必要性。

Jul, 2023

ChatGPT 模型在生物医学任务中的零样本性能探究

本文评估了商业 Large Language Models (LLMs) GPT-3.5-Turbo 和 GPT-4 在 2023 BioASQ 挑战的任务中的表现，其中 0-shot learning 和相关段落达到了竞争水平。

Jun, 2023

ChatGPT 作为研究科学家：探测 GPT 作为研究图书馆员、研究伦理学家、数据生成器和数据预测者的能力

ChatGPT 是一位不完美但在快速改进的图书管理员和已经是一位不错的研究伦理师，能够在已知特性的简单领域生成数据，但在预测未知经验数据的新模式方面表现较差，对未来实验的帮助有限。

Jun, 2024