Jul, 2024

评估大型语言模型自由回答中的微妙偏见

TL;DR利用预训练的大型语言模型(LLMs),我们鉴定了多种细微的偏见类型,包括自信偏见、含蓄偏见和包容性偏见,在自由文本中检测这些偏见,以提供更好的反馈给LLMs。