ACLFeb, 2024

HypoTermQA: 用于评估 LLMs 产生假设性术语倾向的假设性术语数据集

TL;DR介绍了一个自动可扩展的框架,将大型语言模型(LLM)的幻觉倾向与高效的幻觉检测相结合,提供了测试和改进 LLMs 的机会,并有潜力生成特定领域的基准数据集。