基于社交媒体的自杀风险评估研究：模型性能、潜力和局限性的定量评估

Jun, 2023

基于社交媒体的自杀风险评估研究：模型性能、潜力和局限性的定量评估

ChatGPT for Suicide Risk Assessment on Social Media: Quantitative Evaluation of Model Performance, Potentials and Limitations

PDF

Hamideh Ghanadian, Isar Nejadgholi, Hussein Al Osman

TL;DR本文基于社交媒体帖子利用马里兰大学 Reddit 自杀数据集，提出了一种对交互式 ChatGPT 模型进行自杀性评估的量化评估框架，并通过零样本和少样本实验对 ChatGPT 在此任务上的性能进行了技术评估，并将其结果与两个经过微调的基于变压器的模型的结果进行比较，研究不同温度参数对 ChatGPT 响应生成的影响，并根据 ChatGPT 的不确定性率讨论最佳温度。我们的结果表明，虽然 ChatGPT 在这项任务中获得了相当的准确性，但对人工注释数据集进行微调的基于变压器的模型表现出更优异的性能。此外，我们的分析揭示了调整 ChatGPT 的超参数如何提高其协助心理健康专业人士完成此关键任务的能力。

Abstract

This paper presents a novel framework for quantitatively evaluating the interactive chatgpt model in the context of suicidality assessment from social media posts, utilizing the →

chatgpt suicidality assessment university of maryland zero-shot transformer-based models

发现论文，激发创造

ChatGPT 在基于自然语言处理的心理健康应用中的评估

该研究评估了基于大型语言模型 ChatGPT 在三种文本分类任务中的表现，并发现零 - shot 分类准确度表明语言模型对心理健康分类任务具有潜在的应用价值。

Mar, 2023

聊天 GPT 与情感增强提示在心理健康分析中的评估

本文详细评估了 ChatGPT 在 11 个数据集上的心理健康分析和情感推理能力，分析了不同提示策略对其分析能力和可解释性的影响，并发现情感提示可以有效提高其性能，但需要正确的情感注入方式。

Apr, 2023

ChatGPT 在情感计算任务上的广泛评估

基于 ChatGPT 模型的广泛研究评估了 GPT-4 和 GPT-3.5 在 13 个影响计算问题上的性能，发现它们在涉及情感、情绪和毒性等问题上表现出色，但在涉及隐性信号的问题上表现较差，如参与度测量和主观性检测。

Aug, 2023

评估 ChatGPT 作为一个问答系统：全面分析与现有模型的比较

ChatGPT 作为一个问答系统，通过对其在提供的段落中提取回答的能力进行评估，发现它在生成模型方面表现出了实力，但在问题回答方面相对于特定任务模型表现较差，而提供上下文可以提高其性能，提问方式对其准确性有所影响，并且在提供的上下文中提供了无法从中获取答案的问题的回答，还存在答案幻觉的现象。

Dec, 2023

ChatGPT 在生物医学任务中的评估：与微调生成变换器的零样本比较

本文旨在评估 ChatGPT 在生物医学领域中各种基准任务（如关系提取、文档分类、问答和摘要）的性能，在拥有较小训练集的生物医学数据集中，zero-shot ChatGPT 甚至优于最先进的经调优生成变换器模型（如 BioGPT 和 BioBART），这表明 ChatGPT 在生物医学领域也非常专业，具备成为缺乏大型注释数据的各种生物医学任务的有价值工具的潜力。

Jun, 2023

ChatGPT 应用于数字取证调查：益处、弊端与未知

这篇论文评估了 ChatGPT（GPT-3.5、GPT-4）对数字取证领域的影响和潜在影响，重点关注最新的预训练 LLM GPT-4，通过一系列实验评估了它在包括文物理解、证据搜索、代码生成、异常检测、事件响应和教育等多个数字取证应用场景中的能力，并总结了它的优势和风险。综合而言，尽管 ChatGPT 在数字取证领域存在一些潜在的低风险应用，但很多应用目前不适用，因为需要将证据上传至服务端，或者需要对所询问的话题具有足够的知识以识别错误的假设、不准确性和错误。然而，对于合适的知识用户而言，在某些情况下，它可以作为一个有用的辅助工具。

Jul, 2023

ChatGPT 在基准数据集上的系统研究和综合评估

本文通过评估 ChatGPT 在各种自然语言处理任务中的表现，旨在验证其优缺点，并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务，取得很好的表现，但仍有许多难题需要解决。

May, 2023

GPTEval: ChatGPT 和 GPT-4 评估调查

对 ChatGPT 和 GPT-4 的语言能力、科学知识和伦理考虑进行全面评估的研究，包括现有评估方法的探讨和未来研究中对大型语言模型的评估建议。

Aug, 2023

ChatGPT 模型在漏洞检测中的评估

本技术报告评估了 ChatGPT 和 GPT-3 模型在代码漏洞检测任务上的性能。通过使用 CWE 漏洞的二进制和多标签分类任务对真实世界数据集进行评估，结果表明 ChatGPT 在代码漏洞检测的二进制和多标签分类任务中表现不如一个虚拟分类器。

Apr, 2023

比较 GPT-4 与 Chat-GPT 在心理健康护理中的功效：对大型语言模型进行盲评估以支持心理辅导

该研究比较了两个大型语言模型 GPT-4 和 Chat-GPT 在回应 18 个心理提示方面的表现，以评估它们在心理健康护理环境中的潜在适用性。结果显示 GPT-4 在生成临床相关和富有同理心的回应方面更有效，提供更好的支持和指导。这项研究为大型语言模型在心理健康护理领域的适用性提供了贡献，强调了在该领域持续研究和开发的重要性。需要进一步研究了解造成两个模型性能差异的具体因素，并探索其在不同人群和心理健康状况中的普适性。

May, 2024