ChatGPT 是否是一个良好的个性识别器？初步研究

Jul, 2023

ChatGPT 是否是一个良好的个性识别器？初步研究

Is ChatGPT a Good Personality Recognizer? A Preliminary Study

Yu Ji, Wen Wu, Hong Zheng, Yi Hu, Xi Chen...

TL;DRChatGPT 使用零样本的思维链式引导在文本上展示了令人印象深刻的人格识别能力，而在识别人格时，还展示了对某些敏感人口属性（如性别和年龄）的不公平性。

Abstract

In recent years, personality has been regarded as a valuable personal factor being incorporated into numerous tasks such as sentiment analysis and product recommendation. This has led to widespread attention to text-based personality recognition task, which aims to identify an individual's personality based on given text. Considering that →

personality recognition chatgpt prompting strategies zero-shot chain-of-thought prompting fairness

发现论文，激发创造

ChatGPT 是否可以识别您的身份？

通过对捷克民众自我评估数据的分析，本研究探讨了一个通用聊天机器人 ChatGPT 在从短文本中有效推测个性特质方面的能力，结果显示其在人格特质推测方面与人类评估者具有竞争力，并揭示了 ChatGPT 在所有人格维度上存在的 ' 积极偏差 '，同时探讨了提示内容对其准确度的影响，从而对人格评估中人工智能的潜力和局限性进行了重要贡献。本研究强调了负责任的人工智能发展的重要性，并考虑了隐私、同意、自主权和人工智能应用中的偏见等伦理问题。

Dec, 2023

ChatGPT 是否是通用自然语言处理任务解决方案？

本文通过对 20 个流行的任务数据集进行评估，就 ChatGPT 的零 - shot 学习能力进行了实证分析，并发现它在推理能力较强的任务上表现良好，如算术推理，但在特定任务（如序列标记）的解决方面仍面临挑战。

Feb, 2023

探究 ChatGPT 在内容排序方面的能力：一项关于与人类偏好的一致性的初步研究

本研究评估了 ChatGPT 在内容排序方面的能力，结果表明 ChatGPT 的排序偏好与人类的一定程度上一致。这证明了它具有一定的‘zero-shot ranking’能力，有潜力在许多排序任务中减轻注释压力。

Mar, 2023

使用 ChatGPT 进行零样本临床实体识别

本研究旨在探究以零注释方式进行临床命名实体识别任务中，OpenAI 开发的大型语言模型 ChatGPT 以两种不同提示策略的潜力。我们将其与 GPT-3 在类似的零注释情况下进行比较，以及使用来自 MTSamples 的一组合成临床笔记的精调 BioClinicalBERT 模型。研究发现，与 GPT-3 相比，ChatGPT 在零注释情况下表现优异，并且使用不同的提示策略可以过提高其性能。虽然 ChatGPT 的表现仍低于 BioClinicalBERT 模型，但本研究证明了 ChatGPT 在不需要注释的情况下进行临床 NER 任务的巨大潜力。

Mar, 2023

GPT-3 对零样本人格估计的系统评估

本文探讨了 GPT-3 在用户社交媒体帖子上对 Big 5 个性格特质的零样本估计能力，并发现其在粗分类上表现与现有的预训练模型相近，但在细粒度分类下表现不如常见类别基准，同时分析了 GPT-3 和预训练词汇模型表现较好和较差的领域，提出了改进 LNM 在人类级 NLP 任务上的建议。

Jun, 2023

对 ChatGPT 文本注释和分类可靠性的测试：一则警示

该研究调查了 ChatGPT 在零 - shot 文本标注和分类任务中一致性的表现，包括模型参数、提示变化和相同输入的重复。结果显示 ChatGPT 的分类输出的一致性可能低于可靠性的科学阈值，并警告使用 ChatGPT 的谨慎性。建议进行彻底的验证，例如与人类注释数据的比较，并不推荐使用 ChatGPT 进行无监督文本标注和分类。

Apr, 2023

ChatGPT 是一种好的 NLG 评估器吗？初步研究

研究通过在三个常用的 NLG 元评估数据集上实验，评估 ChatGPT 作为 NLG 指标的可靠性，结果表明其与黄金人类判断的相关性达到了同类指标的最高水平或具有竞争性。

Mar, 2023

ChatGPT 是否能评估人类个性？一个综合评估框架

本文提出一种 LL 全面评估人类人格的通用框架，使用 Myers Briggs 类型指标测试。采用无偏提示和替换问题语句的方法，使 ChatGPT 能更加灵活地评估不同类型的人格。通过实验，我们发现 ChatGPT 的评估结果更加一致和公正，尽管对提示偏差的鲁棒性略低于 InstructGPT。

Mar, 2023

ChatGPT 在情感分析中的表现如何？初步研究

本文通过标准测试、极性转移测试、开放域测试和情感推理测试等方法，对 ChatGPT 在理解文本中的意见、情感和情绪方面进行了初步评估，并与 Fine-tuned BERT 和现有的端到端情感分析模型进行了比较，并进行了人工评估和定性分析。

Apr, 2023

ChatGPT 情绪识别中的偏见

本技术报告探讨了 ChatGPT 在从文本中识别情感方面的能力，这可以作为交互式聊天机器人、数据注释和心理健康分析等各种应用的基础。通过实验证明了 ChatGPT 在情感识别方面具有合理的可重复性，通过微调可以明显提高其性能。然而，性能会随不同的情感标签和数据集而异，突显了固有的不稳定性和潜在的偏差。数据集和情感标签的选择对 ChatGPT 的情感识别性能具有显著影响。本文阐明了数据集和标签选择的重要性，以及通过微调提高 ChatGPT 情感识别能力的潜力，为使用 ChatGPT 的应用程序中更好地整合情感分析奠定了基础。

Oct, 2023