关于语言理解任务，GPT-3.5 对前身模型的鲁棒性有多强？一项全面研究

Mar, 2023

关于语言理解任务，GPT-3.5 对前身模型的鲁棒性有多强？一项全面研究

How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language Understanding Tasks

Xuanting Chen, Junjie Ye, Can Zu, Nuo Xu, Rui Zheng...

TL;DR该研究全面评估了 GPT-3.5 在 21 个数据集上进行文本转换后的表现，发现其在某些任务上表现优异，但仍存在重大的鲁棒性降级，而且 GPT-3.5 面临着一些特定的鲁棒性挑战，这些发现对于了解其限制以及指导未来的研究具有重要价值。

Abstract

The gpt-3.5 models have demonstrated impressive performance in various natural language processing (NLP) tasks, showcasing their strong un

gpt-3.5 natural language processing robustness nlu tasks performance

发现论文，激发创造

GPT-3 和 GPT-3.5 系列模型综合能力分析

本研究选取了 6 个代表性的 GPT 系列模型，对它们在 21 个数据集上进行了 9 项自然语言任务的性能评估，发现尽管引入强化学习任务和人性化反馈机制提高了 GPT 系列模型生成人类语言的能力，但也有牺牲部分任务解决能力的代价，同时还有提高模型的鲁棒性的空间。

Mar, 2023

GPT-3.5 与 GPT-4：在零样本学习中评估 ChatGPT 的推理性能

本文对 GPT-3.5 和 GPT-4 进行全面技术评估，发现 GPT-4 在几乎所有测试任务中优于 GPT-3.5，并提出一组改良数据来提高两种模型的零样本学习能力。

May, 2023

评估大型语言模型的性质：对人类中心主义的警告

GPT3.5 的认知能力和人格测量存在较大的变异性，但其所展示的低自尊和与现实脱节的表现可能与人类的良好心理健康状态相悖。

Sep, 2023

GPT 模型在机器翻译中有多好？一项全面评估

本研究对 GPT 模型在机器翻译方面的表现进行了全面评估，涵盖了许多方面，如与最新研究和商业系统的不同 GPT 模型的质量比较，提示策略的效果，域转换和文档级翻译的鲁棒性。实验覆盖了 18 个不同的翻译方向，包括高资源和低资源语言以及非以英语为中心的翻译，评估了三个 GPT 模型：ChatGPT，GPT3.5 (text-davinci-003) 和 text-davinci-002。实验结果表明，对于高资源语言，GPT 模型达到了极具竞争力的翻译质量，而对于低资源语言的能力却有限，同时也证明了混合方法（将 GPT 模型与其他翻译系统相结合）可以进一步提高翻译质量。我们进行了全面的分析和人工评估，以进一步了解 GPT 翻译的特点。我们希望我们的论文为研究人员和实践者提供有价值的见解，并有助于更好地理解 GPT 模型在翻译方面的潜力和局限性。

Feb, 2023

GPT-Neo 用于常识推理 —— 理论和实践视角

本文评估了 GPT-neo 1.3 亿模型在常识推理任务上的表现，发现模型在某些任务上具有竞争力，但当数据集大小显著较小时表现会很差。研究者还使用可视化和推理测试来证实结果，并通过多种方法进行彻底的健壮性测试。

Nov, 2022

ChatGPT 的行为如何随时间变化？

GPT-3.5 和 GPT-4 是广泛使用的两个大型语言模型（LLM）服务，本研究通过评估二者在数学问题解决、回答敏感 / 危险问题、生成代码和视觉推理方面的表现，发现它们的性能和行为会随时间变化而大幅波动，强调了对 LLM 质量的持续监控的必要性。

Jul, 2023

可靠性检查：对 GPT-3 在敏感话题和提示措辞方面响应的分析

研究分析了大型语言模型对敏感主题的反应和提示措辞对模型反应的影响，结果显示 GPT-3 在肯定的阴谋论和刻板印象方面反应正确，但在常见的错误观念和争议方面则会出现错误，暴露出其不可靠性。

Jun, 2023

超越炒作：评估 GPT3.5 的性能、可信度和临床适用性

本研究旨在评估一个新型的大型语言模型 GPT3.5 在医学图像协议分配上的表现，并与经过微调的 BERT 模型和放射科医生进行比较。结果显示，GPT3.5 在性能方面略逊于 BERT 和放射科医生，但在解释决策、检测相关词汇指标和模型校准方面优于 BERT。此外，我们还发现了一些系统性错误，需要加以解决以提高其在临床中的使用安全性和适用性。

Jun, 2023

语言模型是少样本学习器

在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现，同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现，并探讨了 GPT-3 模型优势和局限性。

May, 2020

ChatGPT 自动评分的微调

本研究通过在科学教育中使用示例评估任务，突显了精调 ChatGPT（GPT-3.5）自动评分学生书面构建性答案的潜力。与经过领域特定训练数据细调的 Google 生成语言模型 BERT 相比，GPT-3.5 在自动评分准确性上表现出显著提高，并发布了细调模型以供公众使用和社区参与。

Oct, 2023