GPT-3 和 GPT-3.5 系列模型综合能力分析
该研究全面评估了 GPT-3.5 在 21 个数据集上进行文本转换后的表现,发现其在某些任务上表现优异,但仍存在重大的鲁棒性降级,而且 GPT-3.5 面临着一些特定的鲁棒性挑战,这些发现对于了解其限制以及指导未来的研究具有重要价值。
Mar, 2023
本研究对 GPT 模型在机器翻译方面的表现进行了全面评估,涵盖了许多方面,如与最新研究和商业系统的不同 GPT 模型的质量比较,提示策略的效果,域转换和文档级翻译的鲁棒性。实验覆盖了 18 个不同的翻译方向,包括高资源和低资源语言以及非以英语为中心的翻译,评估了三个 GPT 模型:ChatGPT,GPT3.5 (text-davinci-003) 和 text-davinci-002。实验结果表明,对于高资源语言,GPT 模型达到了极具竞争力的翻译质量,而对于低资源语言的能力却有限,同时也证明了混合方法(将 GPT 模型与其他翻译系统相结合)可以进一步提高翻译质量。我们进行了全面的分析和人工评估,以进一步了解 GPT 翻译的特点。我们希望我们的论文为研究人员和实践者提供有价值的见解,并有助于更好地理解 GPT 模型在翻译方面的潜力和局限性。
Feb, 2023
本文研究了 text-davinci-003 和不同版本的 GPT-3 的表现,发现大语言模型有潜力提升未来知识工作的质量和效率。
Jan, 2023
本文介绍 GPT-3 技术的历史发展、关键特性、机器学习模型和数据集,并讨论了其在各个领域中的应用,如人工智能聊天机器人、软件开发、创意工作、领域知识和商业生产力;同时探讨了 GPT-3 面临的挑战,如训练复杂性、偏见和幻觉 / 错误答案等,并讨论了未来的研究机会。
Dec, 2022
本文通过实验分析 GPT-3 文本模型在语法纠错任务(GEC)上的性能,比较了不同提示方式下的表现,使用自动度量和人为评估的结合揭示了人类评估者与基于参考的自动度量之间的有趣差异。
Mar, 2023
本文对 GPT-3.5 和 GPT-4 进行全面技术评估,发现 GPT-4 在几乎所有测试任务中优于 GPT-3.5,并提出一组改良数据来提高两种模型的零样本学习能力。
May, 2023
对 ChatGPT 及其基础模型 GPT3.5 的可视任务进行分析,包括图像识别和图像生成等方面。
Jul, 2023
GPT-3.5 和 GPT-4 是广泛使用的两个大型语言模型(LLM)服务,本研究通过评估二者在数学问题解决、回答敏感 / 危险问题、生成代码和视觉推理方面的表现,发现它们的性能和行为会随时间变化而大幅波动,强调了对 LLM 质量的持续监控的必要性。
Jul, 2023
本文评估了商业 Large Language Models (LLMs) GPT-3.5-Turbo 和 GPT-4 在 2023 BioASQ 挑战的任务中的表现,其中 0-shot learning 和相关段落达到了竞争水平。
Jun, 2023
ChatGPT 是一位不完美但在快速改进的图书管理员和已经是一位不错的研究伦理师,能够在已知特性的简单领域生成数据,但在预测未知经验数据的新模式方面表现较差,对未来实验的帮助有限。
Jun, 2024