ChatGPT 在基于自然语言处理的心理健康应用中的评估
该研究比较了两个大型语言模型 GPT-4 和 Chat-GPT 在回应 18 个心理提示方面的表现,以评估它们在心理健康护理环境中的潜在适用性。结果显示 GPT-4 在生成临床相关和富有同理心的回应方面更有效,提供更好的支持和指导。这项研究为大型语言模型在心理健康护理领域的适用性提供了贡献,强调了在该领域持续研究和开发的重要性。需要进一步研究了解造成两个模型性能差异的具体因素,并探索其在不同人群和心理健康状况中的普适性。
May, 2024
本文详细评估了 ChatGPT 在 11 个数据集上的心理健康分析和情感推理能力,分析了不同提示策略对其分析能力和可解释性的影响,并发现情感提示可以有效提高其性能,但需要正确的情感注入方式。
Apr, 2023
本文基于社交媒体帖子利用马里兰大学 Reddit 自杀数据集,提出了一种对交互式 ChatGPT 模型进行自杀性评估的量化评估框架,并通过零样本和少样本实验对 ChatGPT 在此任务上的性能进行了技术评估,并将其结果与两个经过微调的基于变压器的模型的结果进行比较,研究不同温度参数对 ChatGPT 响应生成的影响,并根据 ChatGPT 的不确定性率讨论最佳温度。我们的结果表明,虽然 ChatGPT 在这项任务中获得了相当的准确性,但对人工注释数据集进行微调的基于变压器的模型表现出更优异的性能。此外,我们的分析揭示了调整 ChatGPT 的超参数如何提高其协助心理健康专业人士完成此关键任务的能力。
Jun, 2023
研究了大型语言模型在生物医学任务中的性能,并与更简单的模型进行了比较,特别地,探讨了分类和因果关系检测任务。发现精细调整后的模型依然是最佳策略,而简单的词袋模型的表现与最复杂的大型语言模型的表现相当。
Apr, 2023
该论文研究了大型语言模型(LLMs)ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现,并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务,使用完整任务描述作为 LLMs 的输入,通过 CodingBat 的单元测试评估生成的回复。此外,还分析了文本解释和程序代码的普遍可用性。结果显示得分高,正确响应率为 94.4%至 95.8%,同时文本解释和程序代码的可用性可靠,从而为将 LLMs 纳入编程教育和评估中打开了新的途径。
Aug, 2023
基于 ChatGPT 模型的广泛研究评估了 GPT-4 和 GPT-3.5 在 13 个影响计算问题上的性能,发现它们在涉及情感、情绪和毒性等问题上表现出色,但在涉及隐性信号的问题上表现较差,如参与度测量和主观性检测。
Aug, 2023
评估 ChatGPT 在门诊指导中提供的回复一致性,包括版本内回复分析和版本间比较,结果表明 ChatGPT-4.0 的内部回复一致性显著高于 ChatGPT-3.5,并且两者的最佳推荐都具有中等一致性。然而,版本间的一致性相对较低,指示两个版本之间几乎没有匹配的推荐。此外,只有 50%的最佳推荐在比较中完全匹配。ChatGPT-3.5 的回复更可能是完整的,相较于 ChatGPT-4.0,这表明两个版本之间存在信息处理和回复生成的可能差异。这些发现提供了关于 AI 辅助门诊运作的见解,同时也促进了对 LLM 在医疗利用中的潜力和限制的探索。未来的研究可能会根据人体工程学和人因原则,精确地根据有效门诊分诊的特定需求,谨慎优化 LLM 和 AI 在医疗系统中的整合。
Apr, 2024
本文提出了一种新颖的方法,将大型语言模型(LLM)与可解释的人工智能(XAI)和类似 ChatGPT 的对话代理相结合,以解决对社交媒体上表达的抑郁症状进行及时检测的挑战。通过将 BERT 的 Twitter 特定变体 BERTweet 集成到 BERT-XDD 模型中,实现了解释能力,并通过掩码注意力提供分类和解释。利用 ChatGPT 将技术解释转化为可读性强的评论,进一步提高了可解释性。我们的方法为可解释性抑郁症检测提供了一种有效且模块化的方法,有助于发展具有社会责任感的数字平台,在合格的保健专业人员指导下促进对心理健康挑战的早期干预和支持。
Jan, 2024
该研究提出了一个评估 LLMs 不同心理方面的框架 PsychoBench,其中包括了四个明确分类的部分:人格特征、人际关系、动机测试和情绪能力。研究使用了五个常用模型进行测试,并采用了越狱方法绕过安全对齐协议,测试了 LLMs 的内在特性。
Oct, 2023
在本文中,研究人员探索了 ChatGPT 的新颖知识,在融合现有的自然语言处理技术时,如早期或晚期融合,增强了情感计算、自杀倾向检测和大五人格评估等问题的现有技术的能力。
Jul, 2023