Oct, 2024

大型语言模型中的偏见相似性

TL;DR本研究解决了不同大型语言模型(LLMs)之间偏见相似性缺乏比较的研究空白。通过分析十个开源和闭源的LLM,研究发现微调对输出分布没有显著影响,不同模型之间的偏见表现在功能上有显著差异,且存在训练数据泄露的隐患。这一发现为理解LLMs的行为以及在实际应用中的潜在风险提供了重要见解。