Aug, 2023

用于对源代码进行大型语言模型解读的因果研究基准测试

TL;DR通过引入名为 Galeras 的基准测试策略,将统计学严谨性引入 LLMs 的评估,该论文展示了因果推断评估在降低混杂偏差方面的实践成果,为分析准确度指标提供了可解释性的解决方案。