Sep, 2024

对大型语言模型在心理疾病领域的全面评估

TL;DR本研究针对大型语言模型在心理健康任务中的表现进行了全面评估,特别是利用社交媒体数据进行二元疾病检测、疾病严重程度评估和精神病学知识评估。研究发现,GPT-4和Llama 3在二元疾病检测中的表现优越,准确率高达85%,同时显示了提示工程对模型性能的重要影响。