GPT 的年龄是多少？：使用人口统计数据的 HumBEL 框架来评估语言模型

May, 2023

GPT 的年龄是多少？：使用人口统计数据的 HumBEL 框架来评估语言模型

How Old is GPT?: The HumBEL Framework for Evaluating Language Models using Human Demographic Dat

Anthony Sicilia, Jennifer C. Gates, Malihe Alikhani

TL;DR本研究提出了一种通过临床方法测量和比较语言模型语言技能，以及自动化技术对其进行评估的方法，发现 GPT-3.5 模型在不同任务中具有不同的能力，并在社交语言使用上存在困难。因此在使用这些模型作为公共工具时，重要考虑社会任务需求及相关人群的使用差异。

Abstract

While large pre-trained language models (LMs) find greater use across NLP, existing evaluation protocols do not consider how LM language use aligns with particular human →

language models evaluation protocols demographic groups speech language pathology lm capability

发现论文，激发创造

评估大型语言模型的性质：对人类中心主义的警告

GPT3.5 的认知能力和人格测量存在较大的变异性，但其所展示的低自尊和与现实脱节的表现可能与人类的良好心理健康状态相悖。

Sep, 2023

GPT-4 在语言语用学中超越人类表现

本研究通过基于对话的任务评估 Large Language Models（LLMs）和人类主体在解释语用学方面的能力，结果显示 GPT4 在解释语用学方面表现出了优越的性能和速度，同时在人类写作样本的预测试中也表现出了准确性，进一步的分析也揭示了 LLMs 的显著和持续的发展，为通信中心领域 AI 模型的发展和应用提供了重要的启示。

Dec, 2023

大型语言模型是代码生成领域最先进的评估器

本研究提出了一个基于 GPT-3.5 的评估框架，用于评估代码生成的功能正确性和人类偏好，能够在不需要测试 oracle 或参考文献的情况下，达到比 CodeBERTScore 更高的准确性和一致性。

Apr, 2023

GPT 与人类在科学评论中的对比：ChatGPT 在科学领域的应用的双重来源评论

新型多面手大语言模型可通过分析大量数据加快科学评审，使用更无偏的定量度量指标，促进跨学科的联系，确定新兴趋势和研究领域，并通过评估大量数据来识别的方法，但目前它们缺乏对复杂方法的深入理解，评估创新性的主张存在困难，并且无法评估伦理问题和利益冲突。

Dec, 2023

GPT-3 是谁？个性、价值观和人口统计的探索

本文对 GPT-3 的人格特征、价值观和自我报告的人口统计数据进行了心理评估，结果显示 GPT-3 在人格和价值观方面与人类样本的得分类似，我们提供了第一批 GPT-3 心理评估证据，并为未来将社会科学与语言模型放在更近距离提供了建议。

Sep, 2022

GPTEval：利用 GPT-4 进行更有效的人工智能对齐的自然语言生成评估

使用大型语言模型和一种具有连续思考特点的填充范式，提出了一种 NLG 质量评估框架，结合两种生成任务 —— 文本摘要和对话生成，使用 GPT-4 模型作为骨干模型，与以往方法相比性能更好。

Mar, 2023

超越炒作：评估 GPT3.5 的性能、可信度和临床适用性

本研究旨在评估一个新型的大型语言模型 GPT3.5 在医学图像协议分配上的表现，并与经过微调的 BERT 模型和放射科医生进行比较。结果显示，GPT3.5 在性能方面略逊于 BERT 和放射科医生，但在解释决策、检测相关词汇指标和模型校准方面优于 BERT。此外，我们还发现了一些系统性错误，需要加以解决以提高其在临床中的使用安全性和适用性。

Jun, 2023

最新 GPT 模型的人工评估 -- 2024

使用 GPT-4 模型改进程序综合，通过与 Huamn Eval 连接的代码库展示了在 Python 代码生成上与先前最先进的解决方案相比具有竞争力的性能，同时促进了多步骤范式综合。

Feb, 2024

关于语言理解任务，GPT-3.5 对前身模型的鲁棒性有多强？一项全面研究

该研究全面评估了 GPT-3.5 在 21 个数据集上进行文本转换后的表现，发现其在某些任务上表现优异，但仍存在重大的鲁棒性降级，而且 GPT-3.5 面临着一些特定的鲁棒性挑战，这些发现对于了解其限制以及指导未来的研究具有重要价值。

Mar, 2023

大型 GPT 模型的问题：深入研究语言能力与心理语言学度量之间的关系

通过训练不同大小的 GPT-like 语言模型并在挑战任务（BLiMP，GLUE，MSGS）和阅读时预测任务上进行评估，我们发现 LM 大小与所有三个挑战任务的性能呈正相关，而在使用 LM 意外性作为预测变量的线性混合效应模型的阅读时间拟合上，发现 LM 大小呈负相关。这表明，模拟处理的努力和语言能力可能需要与在发展上合理的语料库上训练 GPT-like 语言模型有所不同的方法。

Nov, 2023