Jun, 2024

LLMs 对抑郁预测的数量和质量性别公平性研究

TL;DR最近的研究表明,许多机器学习模型在抑郁症检测方面存在偏见,但是对于此任务中 LLMs 的偏见尚未被探索。本文首次尝试使用定量和定性方法研究现有 LLMs(ChatGPT,LLaMA 2 和 Bard)中存在的性别偏见程度。通过我们的定量评估,我们发现 ChatGPT 在各种性能指标上表现最佳,而 LLaMA 2 在群组公平度指标方面表现优于其他 LLMs。鉴于定性公平性评估仍然是一个未解决的研究问题,我们提出了几种策略(例如词频统计,主题分析),以调查定性评估是否可以为偏见分析提供超越定量评估的有价值的见解。我们发现,与 LLaMA 2 相比,ChatGPT 在预测解释方面始终提供更全面、更合理的解释。我们还确定了 LLMs 采用的几个主题,用于对性别公平性进行定性评估。我们希望我们的研究结果能成为未来改进 LLMs 公平性定性评估的起点,尤其是对于抑郁症检测等重要任务。