ChatGPT 是否是一个良好的个性识别器?初步研究
通过对捷克民众自我评估数据的分析,本研究探讨了一个通用聊天机器人 ChatGPT 在从短文本中有效推测个性特质方面的能力,结果显示其在人格特质推测方面与人类评估者具有竞争力,并揭示了 ChatGPT 在所有人格维度上存在的 ' 积极偏差 ',同时探讨了提示内容对其准确度的影响,从而对人格评估中人工智能的潜力和局限性进行了重要贡献。本研究强调了负责任的人工智能发展的重要性,并考虑了隐私、同意、自主权和人工智能应用中的偏见等伦理问题。
Dec, 2023
本文通过对 20 个流行的任务数据集进行评估,就 ChatGPT 的零 - shot 学习能力进行了实证分析,并发现它在推理能力较强的任务上表现良好,如算术推理,但在特定任务(如序列标记)的解决方面仍面临挑战。
Feb, 2023
本研究评估了 ChatGPT 在内容排序方面的能力,结果表明 ChatGPT 的排序偏好与人类的一定程度上一致。这证明了它具有一定的‘zero-shot ranking’能力,有潜力在许多排序任务中减轻注释压力。
Mar, 2023
本研究旨在探究以零注释方式进行临床命名实体识别任务中,OpenAI 开发的大型语言模型 ChatGPT 以两种不同提示策略的潜力。我们将其与 GPT-3 在类似的零注释情况下进行比较,以及使用来自 MTSamples 的一组合成临床笔记的精调 BioClinicalBERT 模型。研究发现,与 GPT-3 相比,ChatGPT 在零注释情况下表现优异,并且使用不同的提示策略可以过提高其性能。虽然 ChatGPT 的表现仍低于 BioClinicalBERT 模型,但本研究证明了 ChatGPT 在不需要注释的情况下进行临床 NER 任务的巨大潜力。
Mar, 2023
本文探讨了 GPT-3 在用户社交媒体帖子上对 Big 5 个性格特质的零样本估计能力,并发现其在粗分类上表现与现有的预训练模型相近,但在细粒度分类下表现不如常见类别基准,同时分析了 GPT-3 和预训练词汇模型表现较好和较差的领域,提出了改进 LNM 在人类级 NLP 任务上的建议。
Jun, 2023
该研究调查了 ChatGPT 在零 - shot 文本标注和分类任务中一致性的表现,包括模型参数、提示变化和相同输入的重复。结果显示 ChatGPT 的分类输出的一致性可能低于可靠性的科学阈值,并警告使用 ChatGPT 的谨慎性。建议进行彻底的验证,例如与人类注释数据的比较,并不推荐使用 ChatGPT 进行无监督文本标注和分类。
Apr, 2023
研究通过在三个常用的 NLG 元评估数据集上实验,评估 ChatGPT 作为 NLG 指标的可靠性,结果表明其与黄金人类判断的相关性达到了同类指标的最高水平或具有竞争性。
Mar, 2023
本文提出一种 LL 全面评估人类人格的通用框架,使用 Myers Briggs 类型指标测试。采用无偏提示和替换问题语句的方法,使 ChatGPT 能更加灵活地评估不同类型的人格。通过实验,我们发现 ChatGPT 的评估结果更加一致和公正,尽管对提示偏差的鲁棒性略低于 InstructGPT。
Mar, 2023
本文通过标准测试、极性转移测试、开放域测试和情感推理测试等方法,对 ChatGPT 在理解文本中的意见、情感和情绪方面进行了初步评估,并与 Fine-tuned BERT 和现有的端到端情感分析模型进行了比较,并进行了人工评估和定性分析。
Apr, 2023
本技术报告探讨了 ChatGPT 在从文本中识别情感方面的能力,这可以作为交互式聊天机器人、数据注释和心理健康分析等各种应用的基础。通过实验证明了 ChatGPT 在情感识别方面具有合理的可重复性,通过微调可以明显提高其性能。然而,性能会随不同的情感标签和数据集而异,突显了固有的不稳定性和潜在的偏差。数据集和情感标签的选择对 ChatGPT 的情感识别性能具有显著影响。本文阐明了数据集和标签选择的重要性,以及通过微调提高 ChatGPT 情感识别能力的潜力,为使用 ChatGPT 的应用程序中更好地整合情感分析奠定了基础。
Oct, 2023