PsyEval：一种用于精神健康领域的综合大型语言模型评估基准

Nov, 2023

PsyEval：一种用于精神健康领域的综合大型语言模型评估基准

PsyEval: A Comprehensive Large Language Model Evaluation Benchmark for Mental Health

Haoan Jin, Siyuan Chen, Mengyue Wu, Kenny Q. Zhu

TL;DR目前缺乏对大型语言模型（LLMs）在心理健康领域能力评估的全面基准。因此，我们填补该空白，并引入了首个适用于心理健康领域特点的全面基准，包括六个子任务、三个维度，系统评估 LLMs 在心理健康领域的能力。我们为每个子任务设计了相应的简明提示，并全面评估了八个先进的 LLMs 使用我们的基准。实验结果不仅展示了当前 LLMs 在心理健康方面的改进空间，还揭示了未来模型优化的潜在方向。

Abstract

Recently, there has been a growing interest in utilizing large language models (LLMs) in mental health research, with studies showcasing their remarkable capabilities, such as disease detection. However, there is

large language models mental health research benchmark disease detection model optimization

发现论文，激发创造

大型语言模型用于心理健康研究的系统综述

总结和概括了大型语言模型（LLMs）在心理健康领域的应用，包括早期筛查、数字干预和其他临床应用领域的强项、限制、挑战和机遇，并指出了 LLMs 在心理健康问题检测和个性化医疗方面的有效性，同时也提出了关于文本一致性、幻觉内容和缺乏伦理框架的风险以及 LLMs 作为创新临床工具的进一步研究和发展的必要性，强调 LLMs 应该是专业心理健康服务的补充而非替代。

Feb, 2024

SciEval: 一个用于科学研究的多级大型语言模型评估基准

这篇论文提出了 SciEval 基准评估体系，以解决现有预先收集客观问题的数据泄露问题和缺乏主观问答能力评估的问题。SciEval 基于 Bloom 的认知分类学，覆盖了四个维度，系统评估科学研究能力。研究者进行了全面的实验证明，尽管 GPT-4 在与其他 LLMs 相比取得了最先进的表现，但仍有很大的改进空间，特别是在动态问题方面。数据和代码现已公开。

Aug, 2023

PsyBench: 一个平衡且深入的心理学中文评估基准

LLMs 在各领域越来越普及，因此迫切需要改进的 NLP 基准来涵盖各个学科的必要知识。为了解决这个问题，作者提出了 psybench，这是第一个详尽覆盖研究领域所需知识的全面中文评估套件，通过多项选择题深入评估模型在心理学中的优势和劣势，并发现不同领域的性能存在显著差异，展示了测试集中知识不均衡可能导致结果偏斜的风险，仅 ChatGPT 模型的平均准确率超过 70％，表明仍有很大的改进空间。总之，psybench 将有助于对基本模型的优势和劣势进行全面评估，并在心理学领域的实际应用中提供支持。

Nov, 2023

量化 AI 心理学：大型语言模型的心理测量基准

本论文提出了一个研究大语言模型的心理学的框架，并通过心理测试验证，发现大语言模型表现出广泛的心理属性，并揭示了自我报告特征与现实场景中行为之间的差异。这些研究结果对于可靠的评估和人工智能以及社会科学的潜在应用具有重要的见解。

Jun, 2024

在心理健康护理中的大型语言模型：一项范围审查

大语言模型在精神卫生保健中展示了广泛的应用，涵盖诊断、患者支持等方面。然而，数据可用性、精确处理心理状态和有效评估方法等问题，导致了临床适用性和伦理考虑方面的差距存在，要推动精神卫生保健中大语言模型的进一步发展，需要依靠多学科协作、数据集开发、技术精进和伦理融合等方面的全面努力。

Jan, 2024

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

一个用于心理健康中大型语言模型的新颖细致对话评估框架

我们提出了一个新颖的框架来评估大型语言模型（LLMs）的细致对话能力，将其应用于心理健康领域，并发现 GPT4 Turbo 在特定主题上表现出与经过验证的治疗师高度相关的成绩，从而帮助研究人员开发更好的 LLMs 以更积极地支持人们的生活。

Mar, 2024

大型语言模型测量精神功能的能力

通过对大语料库（Med-PaLM 2）中明确训练的大型语言模型（LLMs）的能力进行研究，本文证明了这些模型能够在没有经过训练的情况下从病人采访和临床描述中预测精神功能。结果表明，Med-PaLM 2 能够评估多种精神疾病的精神功能，其中以基于标准评估的抑郁症评分的预测性能最强（准确率范围 = 0.80-0.84），与人类临床评定人员无显著差异（t (1,144)=1.20；p=0.23）。结果显示了通用的临床语言模型在根据患者和临床医生的自由描述预测精神风险方面的潜力。

Aug, 2023

LogEval：一套用于大型语言模型在日志分析领域的全面基准套件

在 AI 运维领域中，对于保证信息系统有序和稳定运行，日志分析至关重要。然而，现有大语言模型在日志分析任务中的表现尚未得到充分验证。为此，我们引入了 LogEval，这是一个综合性基准套件，旨在首次评估大语言模型在不同日志分析任务中的能力。这个基准套件包括日志解析、日志异常检测、日志故障诊断和日志摘要等任务。通过对领先的大语言模型进行严格评估，我们展示了不同大语言模型技术对日志分析性能的影响，重点关注自一致性和少样本上下文学习等方面。我们还讨论了与模型量化、中英文问答评估和提示工程相关的发现。这些发现深入了解了大语言模型在多语言环境中的优势和弱点，以及不同提示策略的有效性。通过采用不同任务的各种评估方法，准确衡量了大语言模型在日志分析中的性能，确保了全面的评估。从 LogEval 评估中获得的见解揭示了大语言模型在日志分析任务中的优势和局限性，为研究人员和从业人员提供了宝贵的指导。

Jul, 2024

MME: 多模态大语言模型综合评估基准

本文介绍了第一代 MLLM 评估基准 - MME 模型，并对 10 种先进的 MLLM 模型进行了全面评估，同时对模型优化的潜在方向进行了研究。

Jun, 2023