关于 GPT-3 的调查
本文对 GPT-3 的人格特征、价值观和自我报告的人口统计数据进行了心理评估,结果显示 GPT-3 在人格和价值观方面与人类样本的得分类似,我们提供了第一批 GPT-3 心理评估证据,并为未来将社会科学与语言模型放在更近距离提供了建议。
Sep, 2022
本文讨论 OpenAIs ChatGPT,一种用于文本型用户请求(即聊天机器人)的生成式预训练转换器。讨论了 ChatGPT 及类似模型背后的历史和原则,以及其对学术界和学术研究出版的潜在影响。ChatGPT 被认为是自动准备论文和其他类型学术手稿的潜在模型。此外,还讨论了可能出现的潜在伦理问题,并将其置于人工智能、机器学习和自然语言处理的更广泛进展的背景之下。
Mar, 2023
本文借助认知心理学的工具对最近的大型语言模型 GPT-3 进行了研究评估其在任务决策、信息搜索、思考以及因果推理方面的能力,结果显示 GPT-3 表现出的许多行为令人印象深刻,能够像人类一样解决任务,但也发现了其局限性,如对于因果推理任务失败,这些结果丰富了我们对当前大型语言模型的理解,并为进一步利用认知心理学工具研究越来越能干和难以理解的人工智能代理铺平了道路。
Jun, 2022
人工智能领域中,ChatGPT 作为一项重要技术,对信息检索产生了重要影响,本文旨在研究 ChatGPT 在信息检索任务中的影响以及其潜在未来发展。
Feb, 2024
我们在这篇论文中调查了 ChatGPT 在七个自然语言处理任务领域的真实性能水平,回顾了 ChatGPT 的社会影响和安全问题,并强调了其评估中的关键挑战和机遇。我们希望我们的调查能够揭示 ChatGPT 的黑盒特性,以免研究人员被其表面生成所误导。
Apr, 2024
该研究针对 GPT-3 模型训练数据不足的问题,通过自动生成的样本增强小型训练集,在数据科学相关问题分类任务中比较了两种分类器的效果,证明了给予大型机器学习模型如 GPT-3 自己提出附加训练示例可以提高分类性能的结论。
May, 2022
本研究选取了 6 个代表性的 GPT 系列模型,对它们在 21 个数据集上进行了 9 项自然语言任务的性能评估,发现尽管引入强化学习任务和人性化反馈机制提高了 GPT 系列模型生成人类语言的能力,但也有牺牲部分任务解决能力的代价,同时还有提高模型的鲁棒性的空间。
Mar, 2023
本研究探讨了自然语言处理模型中偏见及其避免技术的现有文献,包括为何首先解决偏见问题;此外,文中分析了这些技术在比过去更大的新型模型下的表现。为了实现这些目标,本文作者使用目前可由消费者使用的最大 NLP 模型 GPT3 进行了研究。通过使用 GPT3 开发申请人跟踪系统进行测试,其中主要关注了性别偏见而不是所有或多种类型的偏见。最终,考虑和测试了当前的减轻技术以测试其功能程度。
Jun, 2023
本研究对 GPT 模型在机器翻译方面的表现进行了全面评估,涵盖了许多方面,如与最新研究和商业系统的不同 GPT 模型的质量比较,提示策略的效果,域转换和文档级翻译的鲁棒性。实验覆盖了 18 个不同的翻译方向,包括高资源和低资源语言以及非以英语为中心的翻译,评估了三个 GPT 模型:ChatGPT,GPT3.5 (text-davinci-003) 和 text-davinci-002。实验结果表明,对于高资源语言,GPT 模型达到了极具竞争力的翻译质量,而对于低资源语言的能力却有限,同时也证明了混合方法(将 GPT 模型与其他翻译系统相结合)可以进一步提高翻译质量。我们进行了全面的分析和人工评估,以进一步了解 GPT 翻译的特点。我们希望我们的论文为研究人员和实践者提供有价值的见解,并有助于更好地理解 GPT 模型在翻译方面的潜力和局限性。
Feb, 2023