Jun, 2024

等级分数:量化 LLM 在选项选择中的表现

TL;DR本研究引入了 “Grade Score”,这是一种用于评估大型语言模型(LLMs)作为多选题判官时一贯性和公正性的新指标,通过结合熵和模式频率来测量其对次序偏见和选择稳定性的影响,以提供 LLMs 的可靠性和公正性的洞察。研究探索了诸如提示工程和选项抽样策略等技术,以优化 “Grade Score”,并证明了它们提高 LLMs 性能的有效性。结果展示了 LLMs 在提示方面的不同表现,并强调了包含无关选项的积极影响。研究还发现了指示遵循模型中的一种新行为,即其适应针对特定偏见的指示,展示了其适应性。 “Grade Score” 促进了 LLMs 之间的比较,并鼓励不断研究以优化它们的决策过程,具有改善各种应用中它们的可靠性和公正性的潜在影响。所有代码可在 GitHub 上获得。